SeamlessM4T: El Proyecto de Meta que Promete Revolucionar las Traducciones Automáticas

Meta, la empresa detrás de Facebook, ha lanzado un nuevo programa de traducción llamado SeamlessM4T que promete cambiar las reglas del juego en el ámbito de la traducción automática. A diferencia de los modelos anteriores que se centraban en un solo tipo de datos, SeamlessM4T utiliza el concepto de multi-modalidad, lo que significa que puede manejar tanto datos de texto como de voz. Esta versatilidad lo convierte en una herramienta útil para diversas aplicaciones, incluidos los servicios de traducción en tiempo real.

//////////////////////////////////////////////////////////////////////////
Cómo afectará la IA al futuro digital de Catalunya?
//////////////////////////////////////////////////////////////////////////

SeamlessM4T es un programa de «extremo a extremo», lo que significa que integra múltiples componentes en un solo programa, prometiendo ser más eficiente y preciso. En las pruebas, ha mostrado mejoras significativas en el reconocimiento de voz y la traducción, superando a otros programas tanto en modelos de extremo a extremo como en modelos diseñados específicamente para la voz. Además, ha sido evaluado en términos de sesgo de género y toxicidad añadida, mostrando una reducción significativa en la toxicidad añadida en las salidas de traducción.

El programa viene acompañado de un sitio de GitHub que ofrece no solo el código del programa sino también nuevas tecnologías para incrustar datos multi-modales y evaluar automáticamente tareas multi-modales. Es capaz de soportar traducción de voz a voz, voz a texto, texto a voz y texto a texto para hasta 100 idiomas. Para lograr esto, se utilizaron 1 millón de horas de datos de audio de voz abiertos para aprender representaciones de voz auto-supervisadas con w2v-BERT 2.0.

En términos de rendimiento, SeamlessM4T ha establecido un nuevo estándar para traducciones en múltiples idiomas objetivo, logrando una mejora del 20% en la puntuación BLEU sobre el estado anterior del arte en traducción directa de voz a texto. Este enfoque multimodal podría ser el estándar futuro en la traducción automática, marcando un hito en la forma en que interactuamos con la tecnología y entre nosotros.

*** Información extractada del artículo original publicado en WWWhat’s new ***

Facebook
Twitter
LinkedIn
Scroll al inicio