Ara llegint
AINA, el projecte per crear un corpus de veu en català perquè les màquines ens entenguin

AINA, el projecte per crear un corpus de veu en català perquè les màquines ens entenguin

Si volem que les màquines ens entenguin quan els parlem en català i ens responguin a la nostra llengua, cal que primer l’aprenguin. Per això, s’han d’aconseguir milions i milions d’hores de veu en català de persones de tots els gèneres, edats, varietats dialectals i registres.

Una campanya publicitària posada en marxa pel Govern Balear anima la societat a implicar-se en l’enregistrament de les seves veus en el marc del projecte anomenat AINA.

Per construir el corpus de veu de la llengua (conjunts de dades) que necessita una màquina per aprendre-la i poder-la entendre i parlar, es requereix disposar de milions de dades de veu que incloguin la riquesa i els matisos de la llengua oral, amb tots els seus registres i variants dialectals.

Per aquest motiu, la campanya convida la ciutadania de parla catalana de totes les edats, gèneres, condicions i procedències a “donar” la seva veu a través del web projecteaina.cat, des d’on tothom pot llegir, enregistrar i validar un nombre il·limitat de frases agrupades de 5 en 5 a la plataforma Common Voice de Mozilla.

La validació per part de la ciutadania de frases llegides i enregistrades per altres “donants” (per fer-ho s’hi ha d’accedir a través de la pestanya ‘Escolta’ de la plataforma) és tant important com l’enregistrament de veus, ja que les dades de veu enregistrades han de passar necessàriament per un procés de validació abans de ser considerades ‘aptes’ per al projecte.

Així mateix, tot i que aquesta col·laboració es pot fer de manera totalment anònima i sense cap registre previ, conèixer els paràmetres de gènere, edat i variant dialectal de la persona “donant” de veu facilita molt la feina de classificar les dades obtingudes i, alhora, permet saber si s’està contemplant tota la diversitat lingüística del català. Per això, la campanya anima la ciutadania a registrar-se i crear un perfil a la plataforma per avançar més ràpidament en els objectius del projecte AINA.

Actualment, el perfil de veu majoritari a la plataforma Common Voice de Mozilla continua sent la d’homes d’entre 40 i 59 anys parlants de català central, tot i que la falta de registre previ d’una part important de “donants” fa que hi hagi un percentatge elevat de participants dels quals no se’n pot identificar el gènere, l’edat o la variant dialectal emprada (38%).

Arran de la campanya publicitària del Govern Balear, la societat balear ha respost positivament a aquesta crida de participació, formulada mitjançant una sèrie de vídeos, falques i gràfics amb un to informal i proper, i tan sols el primer dia de la campanya els talls enregistrats es varen triplicar i passaren de dues a sis hores.

Segons les dades facilitades per la Generalitat de Catalunya, que va iniciar el projecte AINA, al qual s’hi ha adherit també el Govern de les Illes Balears, el primer dia de la campanya del Govern es varen fer més de 4.600 enregistraments, un augment del 200% en comparació amb el dia anterior (1.565 enregistraments). Els dies posteriors, es manté una participació elevada, entorn dels 3.000 enregistraments diaris.

Sobre el projecte AINA

L’objectiu del projecte AINA és sumar les veus i els accents de les varietats que es parlen en diferents territoris per poder generar un corpus de veu que tengui en compte tota la diversitat lingüística del català oral.

AINA és un projecte basat en tecnologies de dades i Intel·ligència Artificial per fer possible que les màquines entenguin i parlin el català amb l’objectiu últim que la ciutadania pugui relacionar-se amb elles i participar en el món digital en català al mateix nivell que els parlants d’una llengua global, com ara l’anglès, i evitar, així, l’extinció digital de la llengua catalana.

En aquest sentit, el projecte AINA està construint els corpus i els models de llengua del català per facilitar que les empreses tecnològiques puguin desenvolupar les seves solucions o serveis específics (traductors, assistents personals, sintetitzadors de veu, classificadors de textos, etc.) en la nostra llengua.

Disponible en Google Play

© 2020 Fora Vila Verd

Anar a dalt