Investigadores del MIT-IBM Watson AI Lab han desarrollado una arquitectura innovadora que mejora el seguimiento de estados y el razonamiento secuencial en los modelos de lenguaje grande (LLMs) a lo largo de textos extensos. Este avance tiene implicaciones significativas para la inteligencia artificial, especialmente en contextos donde la comprensión del significado evoluciona con la estructura del texto.
La mayoría de los idiomas utilizan la posición de las palabras y la estructura de las oraciones para extraer significado. Por ejemplo, las frases “El gato se sentó en la caja” y “La caja estaba sobre el gato” tienen significados diferentes que dependen de la disposición de las palabras. En textos largos, como documentos financieros o novelas, esta sintaxis puede cambiar, lo que complica el proceso de interpretación para los sistemas de inteligencia artificial actuales.
A pesar de los avances en los mecanismos de atención dentro de las arquitecturas transformadoras, que son fundamentales para determinar la importancia relativa de las palabras en un texto, existen limitaciones teóricas y empíricas en cuanto a su capacidad para manejar cambios de estado y razonamiento secuencial. Los mecanismos tradicionales permiten a un LLM revisar partes anteriores de una consulta o documento, pero no comprenden el orden de las palabras. Esto ha llevado a investigadores a desarrollar técnicas para codificar información posicional, crucial en dominios altamente estructurados como el lenguaje.
Innovación en codificación posicional
El método predominante actual, conocido como rotary position encoding (RoPE), solo considera la distancia relativa entre tokens en una secuencia y es independiente del contenido específico del texto. Esto significa que palabras separadas por cuatro posiciones recibirán la misma rotación matemática fija, independientemente del contexto. En contraste, el nuevo enfoque denominado PaTH Attention hace que la información posicional sea adaptable y consciente del contexto.
Según Yoon Kim, autor principal del estudio y profesor asociado en el Departamento de Ingeniería Eléctrica e Informática (EECS), este avance busca mantener la escalabilidad y eficiencia de los transformadores mientras se habilita un mejor seguimiento del estado. La investigación fue presentada recientemente en la Conferencia sobre Sistemas de Procesamiento Neural (NeurIPS).
El equipo detrás de PaTH Attention ha ideado un sistema flexible que trata las palabras intermedias como un camino compuesto por pequeñas transformaciones dependientes de datos. Cada transformación utiliza una operación matemática llamada reflexión de Householder, actuando como un espejo que se ajusta según el contenido del token que pasa. Este enfoque permite modelar cómo cambia el significado a lo largo del camino entre palabras, proporcionando así una forma de memoria posicional.
Eficiencia y rendimiento mejorado
Los investigadores también desarrollaron un algoritmo eficiente desde el punto de vista del hardware para calcular más eficazmente las puntuaciones de atención entre pares de tokens. Esto asegura que la transformación matemática acumulativa desde PaTH Attention sea comprimida y desglosada en cálculos más pequeños compatibles con procesamiento rápido en GPUs.
Las pruebas realizadas por el equipo mostraron que PaTH Attention mejora significativamente la capacidad del modelo para seguir comandos recientes a pesar de pasos distractores y realizar tareas complejas como recordar múltiples pasos. Al comparar LLMs medianos utilizando este nuevo método frente a otros enfoques existentes, se observó una disminución notable en la perplexidad y un rendimiento superior en benchmarks no entrenados previamente.
Kim subraya que tanto en tareas diagnósticas diseñadas para evaluar limitaciones como en tareas reales de modelado del lenguaje, este nuevo enfoque superó a los mecanismos tradicionales manteniendo su eficiencia. Además, hay expectativas sobre cómo estas codificaciones posicionales dependientes de datos podrían mejorar aún más el rendimiento en dominios estructurados como la biología.
Nuevas fronteras en inteligencia artificial
Los investigadores también exploraron cómo podría desempeñarse PaTH Attention si imitara más estrechamente la cognición humana al ignorar información antigua o menos relevante durante la toma de decisiones. Para ello, combinaron PaTH Attention con otro esquema conocido como Forgetting Transformer (FoX), permitiendo así a los modelos "olvidar" selectivamente información irrelevante.
Este sistema combinado logró resultados sólidos en benchmarks relacionados con razonamiento y comprensión a largo plazo. Según Kim, esta investigación forma parte de un esfuerzo más amplio por desarrollar “la próxima gran cosa” en inteligencia artificial mediante bloques constructivos generales aplicables a diversos dominios.
En conclusión, estos avances representan un paso significativo hacia modelos más eficientes y expresivos capaces de abordar desafíos complejos dentro del campo emergente de la inteligencia artificial.