Google lanza Gemini un modelo de IA que desafía los límites de GPT-4

Google actualiza Bard para aumentar la interacción con otras apps

AWS crea un asistente empresarial con IA generativa para facilitar el trabajo de todos los empleados

Por Adolfo Rodríguez-Bouza

adolforodriguezbouzamedinagmailcom/26/26/32

jueves 07 de diciembre de 2023, 10:00h

Escucha la noticia

Google ha presentado Gemini, un modelo multimodal de inteligencia artificial capaz de generalizar y comprender información de diferentes tipos, como texto, imágenes, audio, vídeo y lenguajes de código.

Gemini ha sido creado como un modelo multimodal de forma nativa, marcando un hito en la evolución de la inteligencia artificial. Hasta ahora, la norma era entrenar componentes separados para diferentes modalidades y luego fusionarlos para imitar ciertas funcionalidades. Aunque este modelo es efectivo, tiene dificultades cuando se trata de razonamiento conceptual y complejo.

Gemini 1.0 se ha optimizado en tres tamaños distintos para abordar diversas necesidades. El modelo más grande y potente es Gemini Ultra, diseñado para tareas de gran complejidad. Por su parte, Gemini Pro es un modelo versátil capaz de escalar en una amplia gama de tareas. Finalmente, Gemini Nano es un modelo eficiente diseñado para ejecutar tareas directamente en dispositivos, ofreciendo agilidad y precisión en su desempeño.

Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU

Con una puntuación del 90,0%, Gemini Ultra es el primer modelo que supera a los expertos humanos en MMLU (comprensión masiva del lenguaje multitarea), que utiliza una combinación de 57 materias, como matemáticas, física, historia, derecho, medicina y ética, con las que se pone a prueba tanto el conocimiento del mundo como la capacidad de resolución de problemas.

Google ha probado los modelos Gemini y evaluando su desempeño en una amplia variedad de tareas. Desde la comprensión de imágenes naturales, audio y vídeo hasta el razonamiento matemático; el desempeño de Gemini Ultra supera los resultados actuales de última generación en 30 de los 32 puntos de referencia académicos, ampliamente utilizados en la investigación y en el desarrollo de grandes modelos de lenguaje.

El modelo de IA de Google se ajusta en una amplia variedad de dispositivos, desde móviles hasta centros de datos, mejorando la forma en que desarrolladores y empresas construyen y escalan con IA.

"Llevamos mucho tiempo trabajando en una nueva generación de modelos de IA, inspirados en la forma en que las personas entienden y se relacionan con el mundo. Una IA que se pareciese menos a un programa informático y más a algo útil e intuitivo, como un colaborador o un asistente experto", asegua Sundar Pichai, CEO de Google. "Gemini es el resultado de los esfuerzos de colaboración a gran escala de equipos de todo Google, incluidos nuestros compañeros de Google Research. Se construyó desde cero para ser multimodal, lo que significa que puede generalizar y entender, operar y combinar a la perfección distintos tipos de información, como texto, código de programación, audio, imágenes y vídeo", explica Pichai.

Nace la IA Alliance, un grupo de empresas, startups, instituciones y gobiernos para apoyar la innovación abierta en IA

Disponibilidad para consumidores y desarrolladores

Gemini 1.0 ya está disponible para consumidores en productos como Bard, con una versión afinada de Gemini Pro, y en Pixel 8 Pro, con nuevas funciones como resumir en la grabadora y respuesta inteligente en Gboard. En los próximos meses, Gemini se implementará en productos y servicios adicionales como Search, Ads, Chrome y Duet AI.

A partir del 13 de diciembre, los desarrolladores y empresas podrán acceder a Gemini Pro a través de la API de Gemini, disponible en Google AI Studio. Esta herramienta, de uso gratuito, basada en la web, ofrece a desarrolladores y clientes empresariales la capacidad de crear prototipos y lanzar aplicaciones de manera ágil mediante una clave API.

Por otro lado, Vertex AI se presenta una opción para personalizar Gemini Pro, proporcionando un control total sobre los datos y aprovechando funciones adicionales de Google Cloud destinadas a reforzar la seguridad empresarial, la privacidad, así como la gobernanza y el cumplimiento de datos.

Los desarrolladores de Android también podrán aprovechar la innovadora Gemini Nano a través de AICore, una nueva capacidad del sistema disponible en Android 14.

IA Generativa