www.zonamovilidad.es
Por María García
x
infozonamovilidades/4/4/18
lunes 15 de abril de 2024, 12:35h

Escucha la noticia

La firma xAI, liderada por Elon Musk, ha presentado Grok-1.5V, la primera generación de IA multimodal de la empresa, diseñada para revolucionar la manera en que interactuamos con la tecnología en nuestras actividades diarias, desde la comunicación en redes sociales hasta el procesamiento de imágenes complejas.

Esta versión avanzada de Grok se distingue por su capacidad para comprender y procesar imágenes de todo tipo, incluyendo capturas de pantalla, lo que representa un salto cualitativo respecto a modelos anteriores que se limitaban al texto. La inclusión de capacidades visuales permite a Grok-1.5V realizar tareas como convertir diagramas de flujo en código Python o interpretar y narrar historias a partir de simples dibujos, expandiendo significativamente su utilidad práctica.

El impulso detrás de Grok-1.5V es parte de una visión más amplia de Musk para integrar la IA en la vida cotidiana, especialmente a través de plataformas como X (antes Twitter), donde Grok inicialmente estaba destinado a operar como un asistente virtual. Este chatbot, que inicialmente era exclusivo para usuarios con suscripciones Premium, ahora se ha hecho más accesible, reflejando una estrategia para democratizar las tecnologías de vanguardia.

Ejemplo de la capacidad de Grok de crear una historia a partir de un dibujo

Además, el modelo Grok-1.5V se ha puesto a disposición del público en GitHub, permitiendo que desarrolladores de todo el mundo puedan explorar y expandir sus capacidades. Esta política de código abierto subraya el compromiso de xAI con la innovación colaborativa y el desarrollo continuo de su tecnología.

En términos de rendimiento, Grok-1.5V ha demostrado ser superior en áreas clave comparado con otros modelos de IA del mercado, como GPT-4V de OpenAI, Claude 3 de Anthropic y Gemini Pro 1.5 de Google. Destaca especialmente en tareas que requieren un alto grado de comprensión matemática, lectura de textos y entendimiento del mundo real, según benchmarks que evalúan estas capacidades.

El modelo también destaca en RealWorldQA, un conjunto de datos que evalúa la capacidad de la IA para entender escenarios visuales complejos, posicionándose como líder en la interpretación de contextos basados en la realidad. Esta capacidad es crucial para aplicaciones que van desde la navegación autónoma hasta sistemas avanzados de ayuda al usuario en entornos virtuales y reales.

Planes de futuro

La visión de Musk para Grok no se detiene aquí. xAI planea continuar mejorando las capacidades de visualización y explicación del razonamiento multimodal del modelo, asegurando que Grok no solo entienda nuestro mundo, sino que también interactúe con él de manera más intuitiva y útil.

Disponibilidad

Aunque Grok-1.5V actualmente está disponible solo para un grupo selecto de analistas, se espera que su implementación se expanda, ofreciendo a más usuarios la oportunidad de experimentar de primera mano los beneficios de una IA avanzada y multimodal.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios