Xiaomi un nuevo modelo de voz de código abierto para inteligencia artificial pensado para coches y hogares inteligentes
Xiaomi ha presentado MiDashengLM-7B, un modelo de voz de código abierto con 7.000 millones de parámetros que pretende posicionarse como alternativa real a los sistemas cerrados de OpenAI o Google.
Con este lanzamiento, el fabricante chino refuerza su apuesta estratégica por la inteligencia artificial aplicada a sus ecosistemas de automoción y hogar inteligente, abriendo una nueva vía de innovación con licencia Apache 2.0 que lo hace plenamente reutilizable en entornos comerciales.
La arquitectura de MiDashengLM-7B combina el codificador Dasheng, desarrollado por Xiaomi, con el decodificador autoregresivo Qwen2.5-Omni-7B, integrando funciones de análisis de voz, detección ambiental y reconocimiento musical en una única estructura. Pero lo más relevante del modelo no es su tamaño, sino su enfoque: en lugar de priorizar la transcripción, como los tradicionales sistemas de ASR (Automatic Speech Recognition), Xiaomi ha entrenado el modelo sobre descripciones completas de escenas sonoras.
Esta estrategia, basada en subtitulado general (audio captioning), permite interpretar audios complejos con mayor profundidad, incluyendo tonos emocionales, música o ruidos del entorno. El entrenamiento se ha realizado con ACAVCaps, un corpus de 38.662 horas de audio curado a partir de la base ACAV100M, generado a través de un proceso en tres fases: análisis por modelos expertos, síntesis de metadatos mediante LLMs, y validación para asegurar consistencia entre sonido y texto.
En pruebas como VGGSound, el modelo alcanza un 52,11% de precisión, frente al 1% de Qwen2.5-Omni-7B, su competidor directo. También supera a modelos equivalentes en tareas de clasificación de hablantes (VoxCeleb1) e identificación de idiomas (VoxLingua107). En aplicaciones prácticas, esto se traduce en una mayor capacidad para entender lo que se dice y quién lo dice, en qué contexto y con qué matices.
Asimismo, Xiaomi asegura que MiDashengLM-7B ofrece una latencia hasta cuatro veces menor que sus competidores, y una mejora de hasta 20 veces en throughput por lote, pudiendo procesar hasta 512 entradas simultáneas en una GPU de 80 GB. Estas cifras reducen significativamente el coste de despliegue y permiten integrar el modelo en servicios a gran escala con menos recursos.
El modelo ya se está aplicando en el coche eléctrico YU7 de Xiaomi, donde permite activar alarmas al detectar rotura de cristales o sonidos anómalos, incluso cuando no hay impacto físico que accione los sensores de movimiento. También está integrado en dispositivos del hogar inteligente, donde su capacidad para identificar entornos y matices de audio mejora la interacción por voz y la adaptabilidad del sistema.
A día de hoy, más de 30 productos de Xiaomi utilizan la plataforma Dasheng, y se espera que la apertura de su modelo base dinamice aún más su adopción por parte de desarrolladores independientes y empresas externas.