Microsoft decide no lanzar su nueva IA generativa de voz al alcanzar ‘paridad humana’ y ser demasiado realista

Microsoft decide no lanzar su nueva IA generativa de voz al alcanzar ‘paridad humana’ y ser demasiado realista

  • Microsoft frena el lanzamiento de su avanzada IA de voz por ser demasiado convincente
  • VALL-E 2: la IA de voz que Microsoft no quiere que uses
  • Microsoft mantiene su nueva IA de voz solo para investigación por su realismo inquietante

Microsoft ha decidido no lanzar al público su IA de voz generativa VALL-E 2 debido a que ha alcanzado ‘paridad humana’, siendo capaz de clonar voces de manera extremadamente realista. En su lugar, solo se usará para investigación para evitar posibles usos malintencionados.

Microsoft presentó VALL-E en 2023, una IA capaz de clonar voces a partir de un clip de tres segundos. La herramienta replicaba el timbre vocal, el tono emocional y el entorno acústico de la grabación original. Año y medio después, Microsoft anunció el desarrollo de VALL-E 2, un sucesor más avanzado que ha logrado clonar voces de manera convincente, alcanzando la ‘paridad humana’. Dada la posibilidad de usos maliciosos, Microsoft ha decidido no lanzarlo al público y destinarlo únicamente a fines de investigación.

VALL-E 2, como su predecesor, es un modelo de lenguaje de códec neuronal, utilizando técnicas de redes neuronales para codificar y decodificar información lingüística. A diferencia de VALL-E, VALL-E 2 realiza síntesis de texto a voz sin entrenamiento previo específico, usando instrucciones de texto para generar voces con las que no ha sido entrenada previamente. Utiliza una vasta biblioteca de entrenamiento, como LibriSpeech y VCTK, para mapear entradas de texto con las correspondientes salidas de audio, acomodando variaciones en la pronunciación, entonación y cadencia.

Los investigadores del Grupo de Computación del Lenguaje Natural en Microsoft Research Asia aseguran que VALL-E 2 ha logrado una síntesis de voz tan natural que su lanzamiento al público podría causar más mal que bien. Este generador de voz será usado exclusivamente para investigación, evitando su potencial mal uso, como la suplantación de identificación de voz. Microsoft asegura que el uso de VALL-E 2 será bajo estrictos protocolos de consentimiento y detección de voz sintetizada, asegurando la aprobación del hablante original.

A pesar de las aplicaciones potencialmente beneficiosas en educación y entretenimiento, Microsoft ha optado por mantener a VALL-E 2 bajo llave, experimentando sus límites prácticos sin riesgo de problemas éticos o legales.

Noticia elaborada a partir del artículo original publicado en La Razón

Scroll al inicio
Verificado por MonsterInsights