Los nuevos modelos IA de Google, creación de vídeos nativos y flujos agenciales

OpenAI convierte GPT-5.5 Instant en el nuevo modelo por defecto de ChatGPT

Google y Blackstone lanzan una ofensiva de 25.000 millones para competir en la IA

Por Miguel Castaño

miguitecno9909gmailcom/14/14/20

https://www.linkedin.com/in/miguel-casta%C3%B1o-p%C3%A9rez-080026192/

martes 19 de mayo de 2026, 20:11h

Actualizado el: 19/05/2026 20:25h

Escucha la noticia

Google ha aprovechado el marco del Google I/O 2026 para redefinir parte de su estrategia en inteligencia artificial con un enfoque orientado a la eficiencia arquitectónica y los sistemas agenciales.

Más allá de la tradicional carrera por aumentar el número de tokens, la compañía de Mountain View ha puesto el foco en modelos capaces de integrar múltiples capacidades dentro de una misma arquitectura, reduciendo la fragmentación entre herramientas y mejorando la velocidad de ejecución.

Con la presentación de Gemini Spark, Gemini Omni y Gemini 3.5 Flash, Google plantea un cambio de paradigma dentro de la IA generativa, abandonando progresivamente el modelo basado en sistemas separados para texto, imagen o vídeo y apuesta por entornos “omnimodales”, capaces de procesar diferentes tipos de entrada dentro de un único sistema unificado.

Gemini Spark, un agente de IA que trabajará por el usuario las 24 horas

La gran novedad de Google para este Google I/O en materia de inteligencia artificial es precisamente el lanzamiento de Gemini Spark, un agente inteligente que podrá ejecutar tareas continuas en segundo plano, mantener contexto permanente y actuar sobre distintos servicios conectados sin depender de que el usuario mantenga una aplicación abierta o un dispositivo activo.

La iniciativa supone un paso adicional dentro de la evolución de la inteligencia artificial generativa hacia modelos más autónomos, de manera que el sistema ya no tenga que responder preguntas o generar contenidos. Ahora, la IA se convierte en un sistema capaz de actuar y tomar decisiones dentro de un entorno digital conectado.

Gemini Spark estará basado en el nuevo modelo Gemini 3.5 Flash y se integrará con el ecosistema de aplicaciones y servicios de Google y se gestionará directamente desde Gemini inicialmente y, posteriormente, también mediante correo electrónico o conversaciones de chat.

A diferencia de asistentes convencionales, Spark podrá mantener procesos activos en la nube de Google sin necesidad de que el teléfono permanezca desbloqueado o de que exista un ordenador funcionando continuamente durante horas o incluso días con el objetivo de poder delegar procesos completos y no únicamente consultas puntuales.

Samsung y Google avanzan sus nuevas gafas inteligentes con IA integrada

Según ha explicado Google, Gemini Spark podrá utilizar información procedente de aplicaciones vinculadas para comprender hábitos, preferencias y contexto de uso para automatizar tareas relacionadas con la gestión automática del correo electrónico, organización de la bandeja de entrada, archivo de mensajes o elaboración de resúmenes inteligentes, además de generar síntesis de reuniones, recopilar información procedente de medios seleccionados por el usuario o ejecutar búsquedas específicas según determinados criterios.

La automatización se extenderá incluso a procesos más complejos de manera progresiva con el objetivo de que pueda gestionar compras online basadas en presupuestos definidos previamente o procesos completos de búsqueda y selección de productos. No obstante, el sistema contempla diferentes niveles de autorización. La idea inicial plantea que determinadas acciones requieran confirmación expresa antes de ejecutarse, especialmente cuando impliquen operaciones sensibles, como las compras.

Gemini Omni, el primer ecosistema de video verdaderamente nativo

En el caso de Gemini Omni, Google ha introducido lo que ha definido como su primer ecosistema de vídeo verdaderamente nativo, teniendo en cuenta que hasta ahora, la generación de vídeo mediante IA dependía de pipelines fragmentados donde distintos modelos intervenían por separado, uno interpretaba el texto, otro generaba las imágenes y un tercero interpolaba el movimiento para construir la secuencia final. Gemini Omni busca romper con esta lógica al integrar todo el procesamiento dentro de una única arquitectura fundacional, capaz de recibir distintos tipos de input y generar resultados multimedia completos de forma nativa.

La principal ventaja de este enfoque es la coherencia visual y física, en la presentación se han hecho demostraciones técnicas dónde el modelo ha sido capaz de mantener consistencia espacial, gestionar correctamente oclusiones y simular dinámicas complejas relacionadas con gravedad, movimiento o interacción entre objetos, uno de los grandes problemas históricos del vídeo generado por inteligencia artificial. Asimismo, permite cargar clips existentes y modificarlos mediante lenguaje natural, abriendo la puerta a funciones como cambiar completamente el estilo visual de una escena, sustituir elementos dentro del encuadre o eliminar objetos y artefactos adaptando automáticamente iluminación, sombras y reflejos para mantener la coherencia de la escena.

Este salto técnico, sin embargo, también tiene un importante coste computacional, supone un consumo muy elevado de recursos, especialmente en tareas complejas de generación y edición de vídeo. De hecho, Google ha comenzado a integrar paneles específicos para monitorizar el uso de infraestructura y cuotas dentro de sus plataformas, consciente del enorme impacto que este tipo de modelos tiene sobre los centros de datos y la capacidad de procesamiento.

Googlebook, así son los nuevos portátiles de Google centrados en Gemini Intelligence

Gemini 3.5 Flash: El núcleo de baja latencia para la era agencial

Mientras que Gemini Omni representa la parte más ambiciosa y creativa de la nueva estrategia de Google, Gemini 3.5 Flash está diseñado para convertirse en el núcleo operativo de los entornos agenciales y automatizados a gran escala. La compañía ha orientado este modelo hacia la velocidad de ejecución y la eficiencia computacional, optimizando especialmente el tiempo hasta el primer token y reduciendo el coste por consulta, dos factores clave para aplicaciones que requieren respuestas inmediatas y procesos continuos en tiempo real.

Frente a modelos más pesados como las variantes Ultra o Pro, Gemini 3.5 Flash adopta un enfoque completamente distinto. apostando por una arquitectura mucho más ligera y rápida, pensada para agentes inteligentes, interfaces dinámicas, automatización de procesos y pipelines de datos donde la latencia resulta crítica. La idea no es sustituir a los modelos más avanzados, sino crear una infraestructura capaz de ejecutar miles de tareas simultáneas con un coste operativo mucho menor. Tradicionalmente, los modelos rápidos tendían a simplificar demasiado las respuestas o generar código poco consistente, pero Gemini 3.5 Flash mejora notablemente la adherencia a instrucciones complejas, siendo capaz de mostrar capacidades avanzadas en generación de interfaces funcionales, creación de entornos completos, gráficos vectoriales y desarrollo de estructuras lógicas.

Google también introduce un nuevo sistema de control del razonamiento basado en niveles de pensamiento ajustables, en lugar de depender de parámetros fijos relacionados con el presupuesto computacional, los desarrolladores podrán decidir cuánta capacidad analítica delegar en cada consulta dependiendo de la complejidad de la tarea, permitiendo equilibrar precisión, velocidad y coste operativo en tiempo real.

Google I/O 2026