La innovación, basada en una técnica conocida como speculative decoding, permite aumentar hasta 2,8 veces la velocidad de inferencia sin comprometer la precisión, lo que abre la puerta a implementaciones más eficientes y universales.
La técnica de speculative decoding ya era conocida como una forma de optimizar la inferencia de modelos de lenguaje mediante el uso de dos modelos: uno pequeño y rápido que genera una secuencia tentativa, y otro más grande y preciso que la valida. La novedad presentada por Intel y Weizmann radica en haber eliminado las limitaciones que hasta ahora restringían su uso a modelos con vocabularios compatibles o entrenados conjuntamente.
Mediante tres nuevos algoritmos desarrollados por los investigadores, el nuevo enfoque desacopla el proceso de inferencia del alineamiento de vocabulario, permitiendo que cualquier modelo preliminar pequeño se pueda emparejar con cualquier LLM, independientemente del proveedor o la arquitectura. Esta compatibilidad universal convierte a la técnica en una herramienta independiente del desarrollador o plataforma, lo que supone un gran avance hacia la interoperabilidad en el actual ecosistema fragmentado de inteligencia artificial.
El avance no es solo teórico. Las implementaciones ya están disponibles a través de la biblioteca Transformers de Hugging Face, una de las plataformas de referencia para desarrolladores de IA en todo el mundo. Esta integración permite que las mejoras en la velocidad de inferencia estén disponibles de forma abierta y lista para usarse, sin necesidad de modificar código ni desarrollar soluciones propietarias.
En entornos donde los recursos de cómputo son limitados, como los dispositivos edge o proyectos con presupuestos ajustados, esta innovación ofrece una mejora significativa en eficiencia y coste. Al mismo tiempo, para aplicaciones de alto rendimiento, el método alcanza niveles similares a soluciones líderes como ElevenLabs Scribe, pero con mayor flexibilidad y apertura.
“Hemos eliminado una barrera técnica fundamental para hacer la IA generativa más rápida y asequible”
La combinación de velocidad, precisión y versatilidad convierte esta propuesta en un avance crucial. “Hemos eliminado una barrera técnica fundamental para hacer la IA generativa más rápida y asequible”, señala Nadav Timor, del equipo de investigación de David Harel en el Instituto Weizmann. Por su parte, Oren Pereg, investigador de Intel Labs, subraya que se trata de “herramientas prácticas que ya están ayudando a los desarrolladores a construir aplicaciones más rápidas e inteligentes”.
La aceleración de los modelos de lenguaje se ha convertido en uno de los principales cuellos de botella en el desarrollo de aplicaciones basadas en IA generativa. Con esta propuesta, Intel y el Instituto Weizmann ponen el foco en una solución agnóstica, interoperable y de código abierto que rompe con las barreras técnicas tradicionales y democratiza el acceso a la inteligencia artificial avanzada.