Google I/O 2024

Google apuesta a lo grande por la IA generativa con novedades para todos sus productos y servicios

Google Chrome apuesta por el aprendizaje automático para revolucionar la búsqueda en línea, dejando los algoritmos en el pasado

Google lanza el smartphone Google Pixel 8a y la tablet Google Pixel con nuevas funciones de IA

Por Adolfo Rodríguez-Bouza

adolforodriguezbouzamedinagmailcom/26/26/32

martes 14 de mayo de 2024, 20:32h

Escucha la noticia

Google ha anunciado en el evento anual I/O sus últimas innovaciones en inteligencia artificial. Entre ellas destaca la actualización en la era de Gemini, con el lanzamiento de una versión mejorada de Gemini 1.5 Pro. Esta nueva versión, disponible para desarrolladores en todo el mundo, ha ampliado su base de datos a 2 millones de tokens.

En el evento I/O, Google presentó una nueva serie de modelos de generación de contenido basados en inteligencia artificial. Estos modelos están diseñados para impulsar la creatividad y la productividad en diversas áreas. Además, se destacaron las innovaciones en IA en productos, investigación e infraestructura.

Google Photos

Dentro de Google Photos se incorpora la función "Ask Photos”, una herramienta, impulsada por la inteligencia artificial Gemini, que llegará este verano y promete mejorar significativamente las capacidades de búsqueda del servicio.

Actualmente, Google Photos ya permite búsquedas avanzadas, pero "Ask Photos" elevará estas funcionalidades a un nuevo nivel. Pichai ha demostrado la característica preguntando, "¿Cuál es mi número de matrícula?" La aplicación identificó el vehículo correcto basándose en la ubicación, la frecuencia de aparición en fotos y otros datos, devolviendo el número de matrícula junto con una imagen de verificación.

Otra demo se ha centrado en la búsqueda de la progresión de natación de un niño, donde "Ask Photos" recopiló imágenes de varias lecciones a lo largo de los años.

Google Astra

Project Astra, una IA diseñada para reducir la latencia en diversas actividades cotidianas, es el resultado de la colaboración entre Google y DeepMind, una empresa de inteligencia artificial adquirida previamente por Google.

El objetivo principal de Project Astra es servir como un asistente de inteligencia artificial versátil que pueda abordar una variedad de necesidades comunes en la vida diaria de las personas, ofreciendo respuestas con una baja latencia. Se ha implementado una codificación de vídeo mejorada para acelerar la transmisión de información durante las interacciones.

Google ha mostrado un prototipo de Project Astra en acción, utilizando la cámara de un dispositivo móvil para realizar diversas tareas, como identificar componentes de dispositivos, resolver ecuaciones y recordar la ubicación de objetos a través del análisis de vídeo.

Este desarrollo está orientado principalmente hacia dispositivos móviles, aunque también se considera su integración en otros productos como gafas inteligentes. Una demostración de Project Astra estará disponible a partir de este martes para que los usuarios puedan probar sus capacidades.

Google Veo, generador de vidos con IA

Google ha presentado Veo, su modelo para generar vídeos de alta definición. Veo es capaz de crear vídeos de calidad en 1080p que pueden superar la duración de un minuto. Equipado con un análisis avanzado del lenguaje natural y la semántica visual, Veo puede convertir solicitudes en vídeos que reflejen la visión creativa del usuario, capturando con precisión los detalles en solicitudes largas y transmitiendo el tono deseado.

Google ha colaborado con destacados cineastas y creadores, como el artista Donald Glover y su estudio creativo, Gilga, quienes han experimentado con Veo en un proyecto cinematográfico. Estas asociaciones no solo han permitido mejorar el desarrollo de Veo, sino que también han demostrado cómo esta tecnología puede potenciar la creatividad y la expresión artística en el cine.

Gemini 1.5 Flash

Además, Google ha lanzado Gemini 1.5 Flash, una versión optimizada y más rápida de su modelo de lenguaje AI de próxima generación. Esta versión ofrece capacidades de razonamiento multimodal y manejo de contextos largos similares a Gemini 1.5 Pro, pero con menor latencia y mayor eficiencia. Desde hoy, los desarrolladores pueden probar Gemini 1.5 Flash en Google AI Studio y Vertex AI, con 1 millón de tokens disponibles inicialmente y 2 millones adicionales bajo solicitud. Esta mejora promete acelerar el rendimiento sin grandes sacrificios en la funcionalidad, beneficiando a aquellos que necesitan respuestas rápidas y eficientes en sus aplicaciones AI.

Google ha anunciado también nuevas capacidades de chat por voz para su asistente Gemini, dirigidas a suscriptores de Gemini Advanced este año. La función, denominada Gemini Live, permitirá conversaciones habladas bidireccionales con el chatbot, capacidades de asistente inteligente y funciones de visión, similar a lo que OpenAI está desarrollando para ChatGPT.

Gemini Live

Gemini Live se adaptará a los patrones de habla de los usuarios, ofreciendo respuestas más concisas y conversacionales en comparación con las respuestas textuales habituales. Dispondrá de 10 opciones de voz y utilizará cámaras de teléfonos inteligentes para interpretar videos en tiempo real. Por ejemplo, Gemini podrá identificar objetos que emiten sonido usando la cámara del teléfono.

Además, Gemini Live ayudará en tareas de asistente digital, como actualizar calendarios personales mediante la información de un folleto de conciertos al que se le ha hecho una foto, o buscar información en cuentas de Gmail, como itinerarios de vuelo o restaurantes cercanos al hotel del usuario.

Con estas características, Google pretende competir directamente con OpenAI y su modelo GPT-4o, que también permitirá conversaciones naturales y fluidez en la interacción (aquí puedes enlazar la de ayer). Gemini Live se implementará gradualmente, ofreciendo una experiencia avanzada de inteligencia artificial a sus usuarios.

Gems, una nueva función para Gemini AI

Por otro lado, Google ha lanzado "Gems", una nueva función para Gemini AI que permite a los usuarios personalizar chatbots con diferentes personalidades y habilidades. Esta opción permite crear versiones personalizadas del asistente Gemini para tareas específicas. Con Gems, se puede configurar a Gemini como un compañero de gimnasio, sous-chef, socio de programación, guía de escritura creativa o cualquier otra función que se desee.

Para configurar un gem, basta con indicar a Gemini qué hacer y cómo responder. Por ejemplo, se puede solicitar que actúe como entrenador de carrera, proporcionando un horario diario de entrenamiento y manteniendo un tono motivador. Con un solo clic, Gemini creará el gem según las especificaciones dadas.

La función "Gems" estará disponible próximamente para los suscriptores de Gemini Advanced, ofreciendo una experiencia de asistente virtual altamente personalizada y eficiente.

Gemini en Android

Google tambien ha anunciado la integración de Gemini en dispositivos Android para ofrecer una experiencia mejorada de asistencia personalizada. Con la presencia de Gemini Nano con Multimodalidad, los usuarios pueden aprovechar un asistente de IA más versátil, capaz de procesar texto, imágenes, audio y voz directamente en el dispositivo.

Esta integración promete nuevas funcionalidades sin comprometer la privacidad de los datos, ya que toda la información se mantiene en el dispositivo.

Nuevo Chat por voz

Google ha anunciado también nuevas capacidades de chat por voz para su asistente Gemini, dirigidas a suscriptores de Gemini Advanced este año. La función, denominada Gemini Live, permitirá conversaciones habladas bidireccionales con el chatbot, capacidades de asistente inteligente y funciones de visión, similar a lo que OpenAI está desarrollando para ChatGPT.

Gemini Live se adaptará a los patrones de habla de los usuarios, ofreciendo respuestas más concisas y conversacionales en comparación con las respuestas textuales habituales. Dispondrá de 10 opciones de voz y utilizará cámaras de teléfonos inteligentes para interpretar videos en tiempo real. Por ejemplo, Gemini podrá identificar objetos que emiten sonido usando la cámara del teléfono.

Con estas características, Google pretende competir directamente con OpenAI y su modelo GPT-4o, que también permitirá conversaciones naturales y fluidez en la interacción. Gemini Live se implementará gradualmente, ofreciendo una experiencia avanzada de inteligencia artificial a sus usuarios.

Nuevo rediseño en la busqueda AI Overviews

Hace un año, en su anterior Google I/O, el gigante estadounidense anunció que la inteligencia artificial (IA) sería el futuro de la búsqueda. Ese futuro ya está aquí con la implementación de "AI Overviews", antes conocida como Search Generative Experience (SGE). De momento solo para usuarios en Estados Unidos y próximamente en todo el mundo, esta función mostrará resúmenes generados por IA en la parte superior de muchos resultados de búsqueda, transformando significativamente la experiencia de búsqueda.

Liz Reid, la nueva jefa de Búsqueda de Google, ha explicado durante su evento para desarrolladores que la IA generativa permitirá que Google realice un mayor trabajo de búsqueda para el usuario, facilitando la obtención de respuestas y permitiendo enfocarse en aspectos más interesantes de la exploración. Para ello, AI Overviews proporcionará una visión general de las respuestas a las preguntas, acompañadas de enlaces a recursos adicionales. También se ha introducido una nueva función en Google Lens que permite buscar capturando vídeos, y una herramienta de planificación que genera itinerarios de viaje y planes de comidas basados en una sola consulta, entre otras funciones.

Esta transformación de la búsqueda está impulsada por Gemini AI, que comprende las consultas del usuario, ya sea por texto, voz, imágenes o vídeos, y utiliza un modelo especializado para resumir la web y mostrar respuestas. Aunque no todas las búsquedas necesitarán tanta IA, el directivo explica que en situaciones complejas, Gemini puede ser muy útil, como es el caso de las búsquedas locales para encontrar un estudio de yoga en Boston con características específicas.

El gran debate en este sentido enfrenta a Google con las fuentes originales de la información, pero la compañía defiende que esta forma de búsqueda “generará más clics hacia la web abierta”, beneficiando a sitios que ofrecen perspectivas y experiencias valiosas.

En la última década, Google ha transformado la búsqueda de un simple cuadro de texto a una experiencia interactiva y conversacional, permitiendo a los usuarios obtener respuestas de manera más natural y efectiva. Esta evolución promete un cambio radical en la forma en que interactuamos con Internet, con menos escritura, menos pestañas y más conversación con el motor de búsqueda.

Google