Mistral lanza Voxtral TTS, su modelo de voz con IA para competir con OpenAI

Atlassian y Google Cloud impulsan la colaboración global con IA y nube integrada

La carrera por la IA empresarial acelera en Europa con los agentes inteligentes en el centro

Por Gabi Galdón López-Quesada

ggaldonlqgmailcom/9/9/15

https://www.linkedin.com/in/community-management-galdon-gabriela/

jueves 26 de marzo de 2026, 18:00h

Escucha la noticia

La inteligencia artificial da un paso más hacia una interacción más natural con los usuarios. La compañía francesa Mistral AI ha presentado Voxtral TTS, un nuevo modelo de texto a voz de código abierto con el que busca hacerse un hueco en un mercado cada vez más competitivo, dominado por empresas como OpenAI o ElevenLabs.

El lanzamiento responde a una demanda creciente dentro del ámbito empresarial, donde la voz empieza a convertirse en una pieza clave en la relación con el cliente. En este sentido, el nuevo modelo está diseñado para integrarse en asistentes virtuales, herramientas de atención al cliente o sistemas de automatización comercial, con el objetivo de hacer las interacciones más fluidas y naturales.

Además, Voxtral TTS destaca por su ligereza y eficiencia. A diferencia de otros modelos más pesados, puede ejecutarse en dispositivos como smartphones, ordenadores portátiles o incluso relojes inteligentes, lo que amplía significativamente sus posibilidades de uso. “Nuestros clientes llevaban tiempo pidiendo un modelo de voz. Hemos desarrollado una solución pequeña, que puede funcionar en distintos dispositivos y con un coste mucho menor que otras opciones del mercado, pero manteniendo un rendimiento de primer nivel”, ha explicado Pierre Stock, vicepresidente de operaciones científicas de Mistral.

“Estamos al principio de una nueva era”: Satya Nadella reivindica a España en la revolución de la IA

Uno de los aspectos más llamativos es su capacidad para generar voces personalizadas con apenas unos segundos de muestra. El sistema es capaz de reproducir matices como acentos, entonaciones o pausas naturales, acercándose cada vez más a una voz humana real. Además, el modelo permite cambiar de idioma sin perder esas características, lo que abre la puerta a usos como el doblaje o la traducción en tiempo real.

En cuanto a rendimiento, la compañía ha puesto el foco en la velocidad. El modelo puede empezar a generar audio en apenas 90 milisegundos tras recibir el texto, y es capaz de procesar fragmentos de voz varias veces más rápido que su duración real. Esto resulta clave en aplicaciones donde la inmediatez es fundamental, como asistentes conversacionales o sistemas de atención automatizada.

Por otra parte, este lanzamiento no llega de forma aislada. Mistral ya había presentado anteriormente modelos de transcripción de voz, por lo que ahora refuerza su apuesta por construir un ecosistema completo en torno al audio. “Nuestro objetivo es ofrecer una plataforma capaz de gestionar distintos tipos de entrada, como audio, texto o imagen, y generar respuestas en cualquiera de estos formatos”, ha señalado Stock.

Con este movimiento, la compañía no solo amplía su catálogo, sino que también deja clara su estrategia: competir en el terreno de la IA generativa con soluciones más accesibles, rápidas y adaptadas a entornos reales de uso.

Agentes inteligentes