VALL-E: así es la IA de Microsoft capaz de simular cualquier voz a partir de una muestra de audio de tan solo tres segundos de duración

Microsoft ha revelado un nuevo modelo de inteligencia artificial capaz de convertir texto a voz, permitiendo simular la voz de una persona a partir de una muestra de audio de apenas tres segundos, VALL-E.

De acuerdo con la compañía, este sistema es capaz de sintetizar el audio de una persona una vez que su voz es aprendida, y lo más interesante es que también puede generar entonaciones para "preservar el tono emocional" del hablante original.

El equipo detrás de VALL-E señala que esta IA se puede utilizar en aplicaciones donde se requiera generar voz en alta calidad a partir de texto, así como en entornos donde se necesite "editar" la voz de una persona y cambiarse por una nueva transcripción de texto, haciéndola decir algo que originalmente no se dijo, además de que también tiene potencial en combinación con otras IA, como GPT3 para la creación de nuevo contenido de audio.

Así funciona VALL-E

Microsoft cataloga a VALL-E como un "modelo de lenguaje neuronal", basado en la tecnología EnCodec anunciada por Meta en 2022.

En el caso de esta nueva IA, no sintetiza el habla manipulando las ondas de audio, sino que analiza cómo suena cada persona, divide la información en componentes discretos denominados como "tokens" usando EnCodec y utiliza datos de su entrenamiento para comparar lo que "conoce" sobre cómo sonaría esa voz si dijera otras frases fuera de la muestra de tres segundos.

Para su entrenamiento, Microsoft utilizó la biblioteca de audio "LibriLight" de Meta, que contiene unas 60,000 horas de habla en inglés de más de 7,000 personas distintas, extraídas en su mayoría de audiolibros de dominio público de LibriVox.

En el caso de VALL-E, para que funcione adecuadamente se requiere que la muestra de tres segundos original coincida con una voz de las que tiene en sus datos de entrenamiento.

Desde entonaciones hasta entornos simulados

En la propia página de GitHub de VALL-E podemos conocer exactamente cómo funciona, pues Microsoft incluyó una serie de audios para ver y comparar el proceso.

El primer audio pertenece a la muestra dicha por el usuario, después una "verdad básica", que sirve para comparar otra frase del mismo hablante, después una "línea base" de cómo sería la conversión de texto a voz y luego el procesamiento de VALL-E.

Algunos de los ejemplos de cómo trabaja VALL-E

El resultado puede variar, pues en algunos casos se puede apreciar a la "maquina" detrás del proceso, aunque en otros es mucho más realista, respetando el tono emocional original.

Además, ya que respeta el entorno acústico en el que las muestras originales fueron grabadas, por ejemplo, si esas se registraron en una sala con eco, el audio generado por VALL-E también agrega ese mismo efecto.

El trabajo que sigue para VALL-E

Por lo pronto, el siguiente paso de Microsoft es poder ampliar los datos de entrenamientos de su IA, permitiendo así mejorar a VALL-E en temas como prosodia, estilo de habla y similitud del hablante, además de reducir el número de palabras que no están claras o que se pierden.

Imagen: MIT Technology Review

El código de esta IA no está abierto al público, posiblemente por el riesgo que tendría el poder colocar palabras nunca dichas en la boca de alguien, algo similar a lo que hemos visto durante años con los deepfakes.

Además, ya que VALL-E puede sintetizar el habla característica de una persona, Microsoft señala que esto podría derivar en riesgos potenciales en el uso indebido de su modelo, principalmente para falsificar identificaciones de voz, o hasta suplantaciones.

Imagen: Erkan Utu

Así funciona VALL-E

Desde entonaciones hasta entornos simulados

El trabajo que sigue para VALL-E

Recibe "", nuestra newsletter semanal

Explora en nuestros medios