Microsoft desvela VALL-E, su espeluznante IA capaz de imitar voces

Un equipo de investigadores de Microsoft ha publicado un artículo sobre VALL-E, su nueva IA capaz de generar imitaciones realistas del habla humana a partir de muestras de sólo 3 segundos. Se trata de un avance preocupante para los actores de doblaje, así como para cualquiera que pueda ser engañado haciéndole creer que está hablando por teléfono con un familiar que necesita desesperadamente los datos de su tarjeta. Normalmente me impresionan los nuevos trucos de la IA antes de pensar en sus implicaciones negativas, pero esto me pareció inquietante desde el principio.

Puedes reproducir algunos de los ejemplos por ti mismo en la demo de Microsoft en github, o bien ver el vídeo a continuación.

Microsoft ha anunciado su IA «VALL-E»

Utilizando una muestra de 3 segundos del habla humana, puede generar habla de texto a texto de altísima calidad a partir de la misma voz. Incluso el rango emocional y el entorno acústico de la
pueden reproducirse. He aquí algunos ejemplos. pic.twitter.com/ExoS2VWO6d

– Tuvok @ NaughtyDog (@TheCartelDel) 7 de enero de 2023


Para ver este contenido habilita las cookies de segmentación.

Los investigadores describen VALL-E como un «modelo lingüístico de códec neural», entrenado con «códigos discretos derivados de un modelo de códec neural de audio comercial». También afirman que se ha entrenado con 60.000 horas de habla, «cientos de veces más que los sistemas existentes». La IA diseñada para imitar de forma realista el habla humana existe desde hace tiempo, pero estas muestras son convincentes mientras que otros intentos son claramente robots.

Como señalan los investigadores, VALL-E es capaz de «preservar la emoción del hablante y el entorno acústico» del mensaje. Es impresionante, pero no es lo mismo que dar con el tono y la emoción adecuados en una actuación, así que aún está lejos de sustituir a los actores de doblaje. No creo que ni siquiera una versión avanzada de VALL-E ofrezca interpretaciones que eclipsen a las de profesionales con talento, pero las empresas tienden a buscar lo más rentable en lugar de lo mejor.

Es un momento embriagador para los avances de la IA, con Chat-GPT ahora capaz de escribir redacciones y corregir errores de codificación, mientras que los gustos de Midjourney y DALL-E escupen imágenes que puede confundir fácilmente por el trabajo de artistas humanos. Ojalá pudiéramos jugar con todos estos juguetes en un mundo en el que no amenazaran el sustento de la gente.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *