Microsoft lanza tres nuevos modelos de IA para competir en texto, voz e imagen

En concreto, la compañía ha presentado MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, tres soluciones que responden a una misma idea: construir un ecosistema multimodal capaz de cubrir diferentes formas de comunicación. Es decir, no se trata solo de texto, sino de integrar audio, imagen y lenguaje en una misma estrategia tecnológica.

Por un lado, MAI-Transcribe-1 está enfocado en la transcripción de voz a texto y es capaz de trabajar en 25 idiomas, además de ofrecer una velocidad 2,5 veces superior a la de la solución Azure Fast de la propia compañía. Por otro lado, MAI-Voice-1 permite generar audio de forma extremadamente rápida, hasta el punto de crear 60 segundos de voz en apenas un segundo, incluyendo la posibilidad de personalizar el tono o estilo de la voz.

“Estamos al principio de una nueva era”: Satya Nadella reivindica a España en la revolución de la IA

MAI-Image-2 amplía las capacidades del conjunto al centrarse en la creación de contenido basado en imagen y vídeo

En cuanto a la generación visual, MAI-Image-2 amplía las capacidades del conjunto al centrarse en la creación de contenido basado en imagen y vídeo. Este modelo ya había sido introducido previamente en MAI Playground, una plataforma experimental de Microsoft, aunque ahora pasa a formar parte del ecosistema más amplio de la compañía.

Además, los tres modelos se integran en Microsoft Foundry, lo que facilita su uso dentro de entornos profesionales y de desarrollo. En este sentido, Microsoft no solo busca innovar, sino también acercar estas herramientas a aplicaciones reales.

Detrás de estos desarrollos se encuentra el equipo de Microsoft AI Superintelligence, liderado por Mustafa Suleyman, quien ha subrayado que el enfoque de la compañía pasa por poner a las personas en el centro. Según ha explicado, el objetivo es crear una inteligencia artificial más práctica, alineada con la forma en la que los usuarios se comunican en su día a día.

Sin embargo, este lanzamiento también tiene una lectura estratégica. Aunque Microsoft mantiene su estrecha relación con OpenAI, con una inversión que supera los 13.000 millones de dólares, la compañía sigue avanzando en el desarrollo de sus propios modelos. De hecho, Suleyman ha dejado claro que ambas líneas pueden convivir, del mismo modo que Microsoft combina tecnologías propias con soluciones externas en otros ámbitos.

Por último, el precio se perfila como otro de los factores clave. Microsoft ha señalado que estos modelos están diseñados para ser más accesibles que los de algunos competidores, con tarifas que parten desde 0,36 dólares por hora en transcripción o 22 dólares por millón de caracteres en generación de voz.

Así, en un mercado cada vez más saturado, Microsoft no solo quiere competir en capacidad tecnológica, sino también en coste y enfoque. Y, viendo este movimiento, parece claro que la batalla por la IA multimodal está lejos de decidirse.

Noticias Tecnología

Microsoft lanza tres nuevos modelos de IA para competir en texto, voz e imagen

“Estamos al principio de una nueva era”: Satya Nadella reivindica a España en la revolución de la IA

TEMAS RELACIONADOS:

Noticias relacionadas

La UE quiere reforzar su ciberseguridad: abierta una consulta para actualizar la ley europea

Mistral lanza Voxtral TTS, su modelo de voz con IA para competir con OpenAI

Microsoft enciende el motor de su propia IA con MAI-Voice-1 y MAI-1-preview

Motorola lanza su nueva serie Moto G con tres modelos 5G

Genesis desembarca en España con tres modelos eléctricos

Mostrar comentarios +