Nace MarIA, el primer modelo masivo de inteligencia artificial de la lengua española

El equipo del Barcelona Supercomputing Center ha desarrollado un sistema de inteligencia artificial experto en comprender y escribir la lengua española. Se trata del primer modelo que se realiza de esta lengua con la tecnología de inteligencia artificial y basado en datos masivos. El sistema ha sido entrenado con archivos de la Biblioteca Nacional de España (se utilizaron 59 terabytes del archivo web de la institución) usando la tecnología del superordenador MareNostrum.

El proyecto, financiado con fondos del Plan de Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Agenda Digital y del Future Computing Center, una iniciativa del BSC e IBM, hará posible que cualquier desarrollador, empresa o entidad pueda utilizar este sistema sin coste. Esta tecnología puede emplearse en predictores y correctores lingüísticos, chatbots, aplicaciones de resumen automático, búsquedas inteligentes, aplicaciones para el análisis de sentimientos o motores de traducción y subtitulación automática, entre otras aplicaciones.

Como indica Marta Villegas, responsable del proyecto y líder del grupo de minería de textos del BSC-CNS, las nuevas tecnologías de inteligencia artificial “están transformando completamente el campo del procesamiento del lenguaje natural. Con este proyecto contribuimos a que el país se incorpore a esta revolución científico-técnica y se posicione como actor de pleno derecho en el tratamiento computacional del español”.

¿Cómo funciona MarIA?

El primer modelo de IA masivo de la lengua española es en realidad un “conjunto de modelos del lenguaje” o, como lo explican sus desarrolladores en un comunicado, “redes neuronales profundas que han sido entrenadas para adquirir una comprensión de la lengua, su léxico y sus mecanismos para expresar el significado y escribir a nivel experto”. Son redes que consiguen trabajar con interdependencias cortas y largas y son capaces de entender, no solo conceptos abstractos, sino también el contexto de los mismos.

El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema. Como explican los responsables del proyecto, para crear el corpus de MarIA, se utilizó el equivalente a 59.000 gigabytes del archivo web de la Biblioteca Nacional. Posteriormente, estos archivos se procesaron para eliminar aquello que no fuera texto bien formado, y se guardaron solamente los textos bien formados en la lengua española. Para este cribado y su posterior compilación fueron necesarias 6.910.000 horas de procesadores del superordenador MareNostrum y los resultados fueron 201.080.084 documentos limpios que ocupan un total de 570 gigabytes de texto limpio y sin duplicidades…

sigue leyendo eloriginal en Computerworld