Noticias Tecnología

Mistral lanza Voxtral, su modelo de voz abierto con comprensión semántica y transcripción multilingüe

Mistral insta a Europa a fortalecer su competitividad en IA

El sector tecnológico advierte que la Ley de IA puede perjudicar el liderazgo europeo

Por Antonio Rodríguez

infozonamovilidades/4/4/18

jueves 17 de julio de 2025, 15:00h

Escucha la noticia

La compañía francesa Mistral ha dado un nuevo paso en el desarrollo de tecnologías de voz con la presentación de Voxtral, su primer modelo abierto de comprensión del habla.

Esta nueva familia de modelos permite transcribir audios de hasta 30 minutos y realizar tareas de comprensión y análisis sobre fragmentos de hasta 40 minutos. Con ello, la firma refuerza su apuesta por una inteligencia artificial accesible, abierta y orientada a escenarios reales de uso.

Voxtral llega en dos versiones: una de 24.000 millones de parámetros, orientada a aplicaciones de producción de gran escala, y una variante más ligera de 3.000 millones (Voxtral Mini), especialmente diseñada para implementaciones locales o en dispositivos edge. Ambas están disponibles bajo licencia Apache 2.0, lo que facilita su adopción sin restricciones comerciales y consolida a Mistral como una alternativa abierta a los servicios cerrados ofrecidos por grandes compañías del sector.

Cómo detectar textos, imágenes o vídeos creados con inteligencia artificial

Un modelo para transcripción y más allá

A diferencia de otros modelos que combinan por separado sistemas ASR (Automatic Speech Recognition) con modelos de lenguaje, Voxtral integra de forma nativa la capacidad de transcribir, comprender, resumir y responder a preguntas sobre el contenido de un audio. De este modo, elimina la necesidad de encadenar distintas herramientas y ofrece una solución más eficiente y coherente para tareas relacionadas con la voz.

La arquitectura de Voxtral permite gestionar contextos de hasta 32.000 tokens, lo que se traduce en la capacidad de procesar audios de gran extensión sin pérdida de contexto. Además, gracias a su comprensión semántica avanzada, los usuarios pueden plantear preguntas sobre el contenido, obtener resúmenes estructurados y activar funciones de sistema directamente a partir de comandos hablados.

Una de las características más destacadas de Voxtral es su capacidad para trabajar con múltiples idiomas. El modelo detecta automáticamente la lengua empleada en el audio y ofrece resultados precisos en español, inglés, francés, portugués, hindi, alemán, neerlandés e italiano, entre otros. Esta cobertura multilingüe, unida a su arquitectura abierta, lo convierte en una solución versátil para aplicaciones globales.

En cuanto a su rendimiento, Mistral asegura que Voxtral Mini supera al modelo Whisper de OpenAI en tareas de transcripción, tanto en precisión como en coste operativo, al ofrecer un servicio por menos de la mitad del precio. Por su parte, Voxtral 24B igualaría el rendimiento de ElevenLabs Scribe, uno de los modelos de gama alta del mercado.

Foto: Depostiphotos

asistentes virtuales