La carrera por liderar la inteligencia artificial no se detiene. En este contexto, Microsoft ha dado un nuevo paso con el lanzamiento de tres modelos fundacionales propios, diseñados para generar texto, voz e imagen, en una apuesta clara por reforzar su posición frente a otros grandes actores del sector.
En concreto, la compañía ha presentado MAI-Transcribe-1, MAI-Voice-1 y MAI-Image-2, tres soluciones que responden a una misma idea: construir un ecosistema multimodal capaz de cubrir diferentes formas de comunicación. Es decir, no se trata solo de texto, sino de integrar audio, imagen y lenguaje en una misma estrategia tecnológica.
Por un lado, MAI-Transcribe-1 está enfocado en la transcripción de voz a texto y es capaz de trabajar en 25 idiomas, además de ofrecer una velocidad 2,5 veces superior a la de la solución Azure Fast de la propia compañía. Por otro lado, MAI-Voice-1 permite generar audio de forma extremadamente rápida, hasta el punto de crear 60 segundos de voz en apenas un segundo, incluyendo la posibilidad de personalizar el tono o estilo de la voz.
MAI-Image-2 amplía las capacidades del conjunto al centrarse en la creación de contenido basado en imagen y vídeo
En cuanto a la generación visual, MAI-Image-2 amplía las capacidades del conjunto al centrarse en la creación de contenido basado en imagen y vídeo. Este modelo ya había sido introducido previamente en MAI Playground, una plataforma experimental de Microsoft, aunque ahora pasa a formar parte del ecosistema más amplio de la compañía.
Además, los tres modelos se integran en Microsoft Foundry, lo que facilita su uso dentro de entornos profesionales y de desarrollo. En este sentido, Microsoft no solo busca innovar, sino también acercar estas herramientas a aplicaciones reales.
Detrás de estos desarrollos se encuentra el equipo de Microsoft AI Superintelligence, liderado por Mustafa Suleyman, quien ha subrayado que el enfoque de la compañía pasa por poner a las personas en el centro. Según ha explicado, el objetivo es crear una inteligencia artificial más práctica, alineada con la forma en la que los usuarios se comunican en su día a día.
Sin embargo, este lanzamiento también tiene una lectura estratégica. Aunque Microsoft mantiene su estrecha relación con OpenAI, con una inversión que supera los 13.000 millones de dólares, la compañía sigue avanzando en el desarrollo de sus propios modelos. De hecho, Suleyman ha dejado claro que ambas líneas pueden convivir, del mismo modo que Microsoft combina tecnologías propias con soluciones externas en otros ámbitos.
Por último, el precio se perfila como otro de los factores clave. Microsoft ha señalado que estos modelos están diseñados para ser más accesibles que los de algunos competidores, con tarifas que parten desde 0,36 dólares por hora en transcripción o 22 dólares por millón de caracteres en generación de voz.
Así, en un mercado cada vez más saturado, Microsoft no solo quiere competir en capacidad tecnológica, sino también en coste y enfoque. Y, viendo este movimiento, parece claro que la batalla por la IA multimodal está lejos de decidirse.