28 febrero 2024

Amazon trabaja con voces sintéticas muy prometedoras

Imagen de Jan Kilian Böttcher en Pixabay

Imagen de Jan Kilian Böttcher en Pixabay

Un equipo de investigadores asociados a Amazon ha desarrollado un modelo de síntesis de voz adaptativa y transmisible de gran tamaño impulsada por inteligencia artificial: BASE TTS o ‘Big Adaptive Streamable TTS’.

Lo han descrito como una herramienta de última generación, capaz de simular el habla de forma natural, por lo que BASE TTS podría algún día ocupar un lugar preminente para sus audiolibros, sobre todo ahora que parece haber abandonado sus reticencias a incluir voces artificiales.

Este nuevo modelo de síntesis de voz está dotado de nada menos que 980 millones de parámetros, y ha sido entrenado con 100.000 grabaciones de voces de dominio público.

Señalan que BASE TTS es capaz de pronunciar correctamente palabras extranjeras en el habla inglesa, así como marcar la puntuación, pero también expresar determinadas emociones.

El modelo trabaja a partir de un texto en bruto, que analiza e interpreta según sus capacidades, y con relativa autonomía.

Este modelo de aprendizaje a partir de un gran volumen de discursos y otros extractos de conversaciones permitió perfeccionar la prosodia de BASE TTS, es decir, su lectura, pero también la forma en que la herramienta pronuncia las palabras con regularidad, respetando los diferentes sonidos y ritmos.

Sin duda, BASE TTS podría mejorar la experiencia de usuario de estos audiolibros leídos por voces sintéticas. Esta naturalidad que prometen también haría que las interacciones con los asistentes de voz sean más intuitivas y atractivas.

No obstante, este modelo de síntesis de voz quedará por el momento reservado para otras investigaciones realizadas internamente, sin ponerse a disposición del público.

Los investigadores seguirán estudiando las mejoras aportadas por la minería masiva de datos para desarrollar otras aplicaciones de síntesis de voz.

Mientras, ya se pueden ver algunos ejemplos de sus logros en este enlace con discursos producidos por el modelo modelo. Ya advierten que han logra la pronunciación estadounidense y española, pero aún no han podido replicar el acento británico.

Leave a Reply