Noticias Tecnología

Google presenta Gemini 1.5 Pro, un avance revolucionario en inteligencia artificial

Google lanza Gemini un modelo de IA que desafía los límites de GPT-4

Europa avanza en la aprobación de la AI Act que se votará en abril

Eviden lanza un asistente virtual multiidioma impulsado por IA generativa para hoteles

Por Federica Estrella

Infozonamovilidades/4/4/18

viernes 16 de febrero de 2024, 07:45h

Escucha la noticia

Sundar Pichai, CEO de Google y Alphabet, ha presentado al mundo la llegada de Gemini 1.5, la más reciente innovación en el campo de la inteligencia artificial de Google.

Para contextualizar, esta nueva generación de modelos de IA, según Pichai, "representa un cambio radical en nuestro enfoque" al combinar avances tanto en investigación como en la ingeniería detrás del desarrollo de modelos de fundación. Pichai ha destacado que han logrado aumentar significativamente la cantidad de información que los modelos pueden procesar, llegando a ejecutar hasta un millón de tokens de manera consistente. Este avance no solo simboliza un progreso técnico, sino que también marca un hito en la capacidad de comprensión de contextos largos por parte de los modelos de IA, abriendo así nuevas posibilidades para desarrolladores y clientes empresariales.

Google convierte Bard en Gemini y arranca una nueva era para su IA generativa

Es importante mencionar que, la adopción de una arquitectura de Mezcla de Expertos (MoE) es central en este desarrollo, permitiendo a los modelos de Gemini 1.5 ser más eficientes tanto en su entrenamiento como en su funcionamiento. Este modelo, dividido en "redes neuronales expertas menores", mejora significativamente la eficiencia al activar solo las vías expertas más relevantes según el tipo de entrada que reciban.

El modelo Gemini 1.5 Pro, una versión multimodal de tamaño medio, ha sido optimizado para escalar a través de una amplia gama de tareas, manteniendo un rendimiento comparable al de Gemini 1.0 Ultra, el modelo más grande hasta la fecha. Además, incorpora una característica experimental revolucionaria en la comprensión de contextos extensos, capaz de procesar vastas cantidades de información en una única acción, incluyendo hasta una hora de vídeo, once horas de audio, bases de código con más de 30,000 líneas de código, o más de 700,000 palabras.

Sundar Pichai ha resaltado la importancia de esta capacidad al ofrecer ejemplos concretos, como el análisis y resumen de transcripciones de 402 páginas de la misión Apollo 11 a la Luna, o la identificación de detalles en películas mudas de 44 minutos, demostrando no solo un profundo entendimiento, sino también la capacidad de razonamiento avanzado sobre diversos tipos de contenido.

La efectividad mejorada de Gemini 1.5 Pro también se refleja en su desempeño superior al de sus predecesores en el 87% de las pruebas de evaluación. Importa destacar que este modelo mantiene altos niveles de rendimiento incluso al aumentar el tamaño de su ventana de contexto, encontrando textos específicos incrustados en bloques de hasta un millón de tokens con una precisión del 99%.

Para finalizar, Pichai ha dicho que este "aprendizaje en contexto" de Gemini 1.5 Pro, sugiere una notable capacidad de la IA para adquirir nuevas habilidades a partir de la información proporcionada en un extenso prompt, sin necesidad de ajustes adicionales.