Microsoft ha desarrollado un nuevo inteligencia artificial El generador de voz (IA) aparentemente es tan convincente que no puede hacerse público.
VALL-E 2 es un generador de texto a voz (TTS) capaz de reproducir la voz de un hablante humano utilizando tan solo unos segundos de audio.
Los investigadores de Microsoft dijeron que VALL-E 2 era capaz de generar «un discurso preciso y con un sonido natural en la voz exacta del hablante original, comparable al desempeño humano», en un artículo del 17 de junio sobre la impresión previa al servidor. arXiv. En otras palabras, el nuevo generador de voz con IA es lo suficientemente convincente como para confundirlo con una persona real, al menos según sus creadores.
«VALL-E 2 es el último avance en modelos de lenguaje de códec neuronal que marca un hito en la conversión de texto a voz (TTS) de disparo cero, alcanzando la paridad humana por primera vez», escribieron los investigadores en el artículo. “Además, VALL-E 2 sintetiza constantemente voz de alta calidad, incluso para oraciones que tradicionalmente son difíciles debido a su complejidad o frases repetitivas. »
Relacionado: El nuevo algoritmo de IA detecta deepfakes con una precisión del 98%, mejor que cualquier otra herramienta disponible actualmente
La paridad humana en este contexto significa que la voz generada por VALL-E 2 igualó o superó la calidad del habla humana en las pruebas comparativas utilizadas por Microsoft.
El motor de IA es capaz de lograr esto mediante la inclusión de dos características clave: “muestreo sensible a la repetición” y “modelado de código agrupado”.
El muestreo consciente de la repetición mejora la forma en que la IA convierte texto en voz al abordar las repeticiones de «tokens» (pequeñas unidades de lenguaje, como palabras o partes de palabras), evitando bucles interminables de sonidos o frases durante el proceso de decodificación. En otras palabras, esta característica te permite variar el patrón de habla de VALL-E 2, haciéndolo más fluido y natural.
El modelado de código masivo, por otro lado, mejora la eficiencia al reducir la longitud de la secuencia, es decir, la cantidad de tokens individuales que el modelo procesa en una única secuencia de entrada. Esto acelera la velocidad a la que VALL-E 2 genera el habla y ayuda a gestionar las dificultades de procesar largas cadenas de sonidos.
Los investigadores utilizaron muestras de audio de las bibliotecas de voz LibriSpeech y VCTK para evaluar la compatibilidad de VALL-E 2 con grabaciones de hablantes humanos. También utilizaron ELLA-V, un marco de evaluación diseñado para medir la precisión y la calidad del habla generada, para determinar la efectividad de VALL-E 2 en el manejo de tareas de generación de voz más complejas.
« Nos expériences, menées sur les ensembles de données LibriSpeech et VCTK, ont montré que VALL-E 2 surpasse les précédents systèmes de synthèse vocale à zéro coup en termes de robustesse de la parole, de naturel et de similitude des locuteurs », ont écrit los buscadores. “Es el primero de su tipo en lograr la paridad humana según estos criterios. »
Los investigadores señalaron en el artículo que la calidad de la salida de VALL-E 2 dependía de la duración y la calidad de las indicaciones de voz, así como de factores ambientales como el ruido de fondo.
“Un proyecto de pura investigación”
A pesar de sus capacidades, Microsoft no lanzará VALL-E 2 al público debido a posibles riesgos de mal uso. Esto coincide con la creciente preocupación por la clonación de voces y la tecnología deepfake. Otras empresas de IA como OpenAI tiene restricciones similares en su tecnología de voz.
“VALL-E 2 es un proyecto puramente de investigación. Actualmente, no tenemos planes de integrar VALL-E 2 en un producto o ampliar el acceso público”, escribieron los investigadores en un comunicado. entrada en el blog“Esto puede conllevar riesgos potenciales si se hace un mal uso del modelo, como la suplantación de voz o la suplantación de un hablante específico. »
Dicho esto, sugirieron que la tecnología de voz basada en IA podría tener aplicaciones prácticas en el futuro. “VALL-E 2 podría sintetizar el habla preservando la identidad del hablante y podría usarse para aprendizaje educativo, entretenimiento, periodismo, contenido escrito por uno mismo, funciones de accesibilidad, sistemas de respuesta de voz interactivos, traducción, chatbot, etc. », agregaron los investigadores.
Continuaron: “Si el modelo se generaliza a hablantes invisibles en el mundo real, debería incluir un protocolo para garantizar que el hablante apruebe el uso de su voz y un modelo para detectar el habla sintetizada. »