www.zonamovilidad.es
Por Federica Estrella
x
Infozonamovilidades/4/4/18
jueves 15 de febrero de 2024, 18:00h

Escucha la noticia

Amazon ha presentado su nuevo modelo de conversión de texto a voz llamado Big Adaptative Streamable TTS (BASE TTS). Este modelo es el más grande hasta la fecha y ha sido entrenado con hasta 100.000 horas de audio de dominio público para lograr una voz más realista.

Durante el proceso de desarrollo, la compañía ha estado investigando formas de mejorar las capacidades de los modelos de conversión de texto a voz para obtener resultados más naturales y realistas en el habla, incluyendo emociones, frases complejas, palabras extranjeras e interpretación de signos de puntuación.

BASE TTS utiliza un transformador con casi mil millones de parámetros para convertir texto en códigos de voz

En cuanto a su mecanismo, BASE TTS utiliza un transformador con casi mil millones de parámetros para convertir texto en códigos de voz. Estos códigos de voz se combinan con un decodificador que los convierte en forma de onda. Esto permite que BASE TTS funcione con una arquitectura simplificada y eficiente. Además, se ha utilizado una técnica de tokenización de voz novedosa para obtener resultados de voz más realistas.

Asimismo, los investigadores de Amazon han entrenado BASE TTS en diferentes variantes, desde una pequeña con 1.000 horas de datos de audio y 150 millones de parámetros, hasta la más grande con 100.000 horas de entrenamiento de audio y 980 millones de parámetros. Los datos de audio utilizados para el entrenamiento incluyen un 90% de audio en inglés, así como datos en alemán, holandés y español.

El modelo BASE TTS ha demostrado una comprensión más avanzada de los textos y una pronunciación y fonética contextualmente apropiada a partir de la variante mediana del modelo. Además, es capaz de reproducir palabras paralingüísticas, interpretar correctamente los elementos de puntuación y manejar complejidades sintácticas.

Finalmente, BASE TTS de Amazon es un modelo de conversión de texto a voz entrenado con grandes volúmenes de datos de dominio público para lograr una voz más realista y natural, capaz de imitar emociones, frases complejas, palabras extranjeras y signos de puntuación.

¿Te ha parecido interesante esta noticia?    Si (0)    No(0)

+
0 comentarios