Un nuevo método desarrollado por investigadores del MIT y el MIT-IBM Watson AI Lab promete mejorar la capacidad de los modelos de inteligencia artificial generativa para localizar objetos personalizados en diversas escenas. Este avance es especialmente relevante para aplicaciones que requieren identificar elementos únicos, como mascotas o pertenencias personales, en entornos complejos.
En situaciones cotidianas, un dueño de una mascota puede reconocer fácilmente a su perro, como un Bulldog Francés llamado Bowser, mientras juega en un parque. Sin embargo, cuando se intenta utilizar un modelo de IA generativa, como GPT-5, para monitorear a Bowser desde el trabajo, el sistema puede fallar en esta tarea aparentemente simple. Los modelos de visión-lenguaje suelen ser eficaces para identificar objetos generales, pero presentan dificultades al intentar localizar objetos específicos y personalizados.
Nueva metodología para la localización de objetos
Para abordar esta limitación, los investigadores han introducido una técnica de entrenamiento que utiliza datos de seguimiento en video cuidadosamente preparados. Estos datos permiten rastrear el mismo objeto a través de múltiples fotogramas, forzando al modelo a centrarse en pistas contextuales en lugar de depender únicamente del conocimiento previamente memorizado. Al proporcionar ejemplos visuales de un objeto personalizado, como una mascota, el modelo reentrenado muestra una mejor capacidad para identificar la ubicación del mismo objeto en imágenes nuevas.
Los resultados obtenidos con este nuevo enfoque indican que los modelos reentrenados superaron a los sistemas más avanzados existentes en esta tarea específica. Un aspecto crucial es que esta técnica no afecta las habilidades generales del modelo, lo que permite mantener su eficacia en otras áreas.
Aplicaciones potenciales y futuro del desarrollo
Este avance tiene implicaciones significativas para futuros sistemas de IA que podrían rastrear objetos específicos a lo largo del tiempo, como mochilas escolares o especies animales durante la monitorización ecológica. También podría facilitar la creación de tecnologías asistivas impulsadas por IA que ayuden a usuarios con discapacidad visual a encontrar artículos dentro de una habitación.
“El objetivo final es que estos modelos aprendan a partir del contexto, al igual que los humanos. Si un modelo logra hacerlo bien, podríamos simplemente proporcionar unos pocos ejemplos y él inferiría cómo realizar la tarea basándose en ese contexto”, afirma Jehanzeb Mirza, investigador postdoctoral del MIT y autor principal de un estudio sobre esta técnica.
Desafíos encontrados durante la investigación
A pesar de los avances logrados, los investigadores se encontraron con desafíos inesperados. Aunque los grandes modelos de lenguaje (LLMs) pueden aprender eficazmente a partir del contexto proporcionado, se observó que los modelos de visión-lenguaje (VLMs) no heredan estas capacidades. Esto podría deberse a la pérdida de información visual durante la fusión de componentes visuales y lingüísticos.
Para mejorar las capacidades de localización contextual en VLMs, se desarrolló un nuevo conjunto de datos utilizando muestras extraídas de videos donde se seguía el movimiento del mismo objeto. Esta estrategia permitió estructurar el dataset con múltiples imágenes mostrando el mismo objeto en diferentes contextos junto con preguntas y respuestas sobre su ubicación.
Resultados prometedores y perspectivas futuras
A través del ajuste fino con este nuevo conjunto de datos, se logró mejorar la precisión en la localización personalizada en aproximadamente un 12% en promedio; cuando se incorporaron nombres ficticios para evitar sesgos preexistentes del modelo, las mejoras alcanzaron hasta un 21%. A medida que aumenta el tamaño del modelo, también lo hacen las ganancias en rendimiento.
Los investigadores planean continuar explorando las razones detrás de la falta de herencia en las capacidades de aprendizaje contextual por parte de los VLMs y buscarán mecanismos adicionales para mejorar su rendimiento sin necesidad de reentrenamiento constante.
Este trabajo redefine la localización personalizada basada en pocas muestras como un problema relacionado con la sintonización instructiva y utiliza secuencias de seguimiento por video para enseñar a los VLMs a localizar objetos según el contexto visual. Con este enfoque innovador se espera fomentar una adopción más amplia de modelos fundamentales basados en visión-lenguaje.