Saltar al contenido

El projecte AINA supera el milió de noves veus enregistrades per fer que les màquines entenguin i parlin català

Des que va començar la campanya ‘La nostra llengua és la teva veu’, s’han enregistrat 1.006.000 talls de veu nous, s’ha arribat a 1.400 hores noves gravades i s’han assolit objectius marcats per a tot el 2022

El projecte AINA ha superat aquest cap de setmana el milió de talls de veu (frasesentregistrades) després de menys de cinc mesos des de l’inici de la campanya ‘La nostra llengua és la teva veu’’ que el Govern de Catalunya va llançar a mitjans de febrer amb l’objectiu de recollir el màxim de veus possible per nodrir de continguts la primera versió del corpus de veu del català, imprescindible per ensenyar les màquines a entendre i parlar la nostra llengua.

Des que va començar la campanya i fins avui, doncs, ja s’ha aconseguit arribar a 1.006.000 talls de veu nous enregistrats i a gairebé 1.400 hores noves gravades. Aquestes són fites que s’afegeixen a les aconseguides per la campanya gràcies a l’excel·lent resposta de ciutadania, que va fer que en poc més d’un mes el català passés a ser la segona llengua del món amb més locutors a Common Voice, només per darrere de l’anglès, i que en menys de dos mesos s’assolís un dels objectius que els impulsors del projecte s’havien marcat per a tot el 2022: superar les 2.000 hores de gravació a la plataforma (actualment, més de 2.400).

Registre de donants i validació de veus, noves fites

Per construir el corpus de veu de la llengua (conjunts de dades) que necessita una màquina per aprendre-la i poder-la entendre i parlar, es requereix disposar de milions de dades de veu que incloguin la riquesa i els matisos de la llengua oral, amb tots els seus registres i variants dialectals.

Per aquest motiu, la campanya ‘La nostra llengua és la teva veu’ convida la ciutadania de parla catalana de totes les edats, gèneres, condicions i procedències a “donar” la seva veu a través del web projecteaina.cat, des d’on tothom pot llegir, enregistrar i validar un nombre il·limitat de frases agrupades de 5 en 5 a la plataforma Common Voice de Mozilla.

En aquest sentit, la validació per part de la ciutadania de frases llegides i enregistrades per altres “donants” (per fer-ho s’hi ha d’accedir a través de la pestanya ‘Escolta’ de la plataforma) és tant important com l’enregistrament de veus, ja que les dades de veu enregistrades han de passar necessàriament per un procés de validació abans de ser considerades ‘aptes’ per al projecte.

Així mateix, tot i que aquesta col·laboració es pot fer de manera totalment anònima i sense cap registre previ, conèixer els paràmetres de gènere, edat i variant dialectal de la persona “donant” de veu facilita molt la feina de classificar les dades obtingudes i, alhora, permet saber si s’està contemplant tota la diversitat lingüística del català. Per això, la campanya anima la ciutadania a registrar-se i crear un perfil a la plataforma per avançar més ràpidament en els objectius del projecte AINA.

Actualment, el perfil de veu majoritari a la plataforma Common Voice de Mozilla continua sent la d’homes d’entre 40 i 59 anys parlants de català central, tot i que la falta de registre previ d’una part important de “donants” fa que hi hagi un percentatge elevat de participants dels quals no se’n pot identificar el gènere, l’edat i/o la variant dialectal emprada (38%).

Clipping de una noticia publicada originalmente en: GENCAT




Otros artículos de interés