V-JEPA: Un modelo de Meta para predicción de partes perdidas en vídeos

Tecnología

Meta presenta V-JEPA un modelo de IA no generativo

Por Adolfo Rodríguez-Bouza

adolforodriguezbouzamedinagmailcom/26/26/32

viernes 16 de febrero de 2024, 18:00h

Escucha la noticia

Meta ha presentado V-JEPA un modelo no generativo diseñado para enseñar a las máquinas a comprender y modelar el mundo físico mediante la visualización de vídeos.

Este nuevo modelo de Meta aprende a realizar tareas prediciendo partes perdidas o enmascaradas de un vídeo en un espacio de representación abstracto. A diferencia de los modelos generativos convencionales, que intentan rellenar píxeles faltantes, V-JEPA puede descartar la información impredecible y hacer predicciones más eficientes, centrándose en la información conceptual de nivel superior sin preocuparse por detalles irrelevantes.

El proceso de entrenamiento de V-JEPA implica el uso de datos sin etiquetar y un enfoque de aprendizaje autosupervisado con un conjunto de vídeos. La compañía explica que esto proporciona contexto sobre el mundo que nos rodea inmediatamente. Además, se ha implementado una mecánica de enmascaramiento, eliminando partes de los vídeos basándose en cambios espacio-temporales para permitir que el modelo desarrolle una comprensión más profunda de la escena.

Meta ha destacado que el modelo es eficiente al realizar evaluaciones congeladas, lo que significa que los investigadores no modifican nada después del entrenamiento previo autosupervisado en el codificador y el predictor. Si los investigadores desean que el modelo adquiera una nueva habilidad, solo necesitan entrenar una pequeña capa especializada, lo que agiliza el proceso.

V-JEPA es versátil y puede ser entrenado previamente una sola vez sin datos etiquetados, permitiendo su reutilización para diversas tareas, como clasificación de acciones, reconocimiento de interacciones detalladas de objetos y localización de actividades.

Los investigadores de Meta planean en un futuro adoptar un enfoque multimodal, empezando por la incorporación de audio, ya que hasta ahora solo han trabajado con imágenes. Además, tienen la intención de profundizar en las capacidades predictivas del modelo para utilizarlo en la planificación y la toma de decisiones secuenciales.