Este avance es crucial, ya que el desarrollo de estos modelos implica un alto costo financiero, que puede ascender a millones de dólares. Por lo tanto, es fundamental que los desarrolladores tomen decisiones informadas sobre la arquitectura del modelo, los optimizadores y los conjuntos de datos de entrenamiento antes de comprometerse con un modelo específico.
Para anticipar la calidad y precisión de las predicciones de un modelo grande, los investigadores recurren a las leyes de escalado. Estas leyes permiten utilizar modelos más pequeños y económicos para aproximar el rendimiento de un modelo objetivo mucho mayor. Sin embargo, existe una gran variedad de formas para establecer una ley de escalado, lo que puede complicar el proceso.
Nueva investigación sobre leyes de escalado
El equipo del MIT ha recopilado y publicado una colección compuesta por cientos de modelos y métricas relacionadas con el entrenamiento y rendimiento, lo que permite aproximar más de mil leyes de escalado diferentes. A partir de esta vasta base de datos, se ha elaborado un meta-análisis y una guía para seleccionar modelos pequeños y estimar leyes de escalado para distintas familias de LLMs, asegurando así que el presupuesto se utilice eficazmente para generar predicciones confiables sobre el rendimiento.
Jacob Andreas, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, destaca que aunque la idea de construir modelos matemáticos del proceso de entrenamiento no es nueva, este trabajo se centra en cómo hacer mejores decisiones al entrenar nuevos modelos a gran escala mediante análisis post-hoc.
Extrapolación del rendimiento
Desarrollar LLMs representa un desafío costoso en términos financieros. Las decisiones sobre el número de parámetros, la selección y tamaño del conjunto de datos, así como las técnicas de entrenamiento son determinantes para lograr la precisión deseada en las salidas. Las leyes de escalado permiten prever el comportamiento del modelo relacionando la pérdida del modelo grande con el rendimiento observado en modelos más pequeños dentro de la misma familia. Así se evita tener que entrenar completamente cada candidato.
Las diferencias entre los modelos más pequeños suelen radicar en el número de parámetros y el tamaño del entrenamiento con tokens. Según Leshem Choshen, uno de los investigadores involucrados, clarificar estas leyes no solo mejora las decisiones previas al entrenamiento sino que también democratiza el campo al permitir que investigadores sin vastos recursos comprendan y construyan efectivas leyes de escalado.
Construyendo mejores modelos
Choshen, Andreas y Yang Zhang han creado un amplio conjunto de datos que incluye LLMs provenientes de 40 familias diferentes. Este conjunto abarca 485 modelos únicos preentrenados junto con información sobre costos computacionales (FLOPs), épocas de entrenamiento y métricas relacionadas con su desempeño. Utilizando estos datos, los investigadores ajustaron más de mil leyes de escalado y compararon su precisión entre diversas arquitecturas y regímenes de entrenamiento.
A través del análisis realizado, se destilaron recomendaciones prácticas para los profesionales en inteligencia artificial sobre cómo construir leyes efectivas. Es esencial definir primero un presupuesto computacional y una precisión objetivo para el modelo. Se descubrió que un error relativo absoluto (ARE) del 4% es lo mejor alcanzable debido al ruido aleatorio; sin embargo, hasta un 20% sigue siendo útil para la toma decisiones.
Sorpresas durante la investigación
Durante este estudio surgieron hallazgos inesperados: los modelos pequeños parcialmente entrenados resultaron ser muy predictivos. Además, se observó que las etapas intermedias del entrenamiento pueden ser utilizadas como si fueran modelos individuales para predecir otro modelo objetivo. Andreas enfatiza que este enfoque es valioso porque permite aprovechar recursos ya invertidos en el entrenamiento completo del modelo.
Los investigadores planean extender su análisis hacia la inferencia del modelo en futuras investigaciones. La capacidad para construir modelos predictivos sobre cuánto tiempo debe pensar un modelo durante su ejecución será cada vez más importante a medida que se continúe desarrollando esta tecnología.