Es busquen mestres de català per a l'Alexa i la Siri

El Govern vol generar un banc de veus per atreure grans i petites empreses que facin eines virtuals en català

4 min
Superordinador MareNostrum, del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS), al recinte de la capella de Torre Girona.

BarcelonaEs busquen mestres per ensenyar les noves tecnologies a entendre i parlar la llengua catalana. No caldrà que hagin estudiat filologia, ni tan sols que es dediquin a la docència. Qualsevol persona, parli el dialecte que parli, pot ser-ho. L’únic requisit és que sàpiga parlar i llegir el català. I com més varietat i riquesa lingüística, millor. El Govern, amb la col·laboració del Barcelona Supercomputing Center (BSC), engegarà dimecres la campanya La nostra llengua, la teva veu. Fem que la tecnologia parli català per recollir veus d’arreu del territori de parla catalana i, així, disposar d’un banc de dades d’ús públic que sigui atractiu per a les empreses que desenvolupen aplicacions, assistents de veu o traductors automàtics. L'objectiu: tenir un diccionari oral i virtual íntegrament en llengua catalana per aconseguir que assistents com l’Alexa o la Siri no només entenguin i responguin en català per escrit, com fins ara, sinó que també el parlin de manera coherent.

Aquesta iniciativa forma part de l’AINA, un dels projectes estrella de la Generalitat per a l’impuls del català també en l’era digital i per fer-lo competitiu en un sector majoritàriament dominat per idiomes globals com l’anglès o el castellà. “És una qüestió de drets. Els catalanoparlants tenim dret de relacionar-nos en català i que no calgui que allò tan malauradament quotidià a la vida real com canviar la llengua en una conversa no ens hagi de passar també amb les màquines”, ha explicat el vicepresident del Govern i conseller de Polítiques Digitals i Territori, Jordi Puigneró. El nom del projecte ret homenatge a la filòloga menorquina i activista de la normalització de la llengua catalana Aina Moll (1930-2019), la primera directora general de Política Lingüística de Catalunya entre els anys 1980 i 1988. A més, les dues primeres lletres també coincideixen amb l’acrònim d’intel·ligència artificial en anglès (IA), la disciplina a partir de la qual interaccionen les persones i les tecnologies. 

L'AINA va néixer l'any 2020 i, des d'aleshores, ha conegut la sintaxi del català, que és la columna vertebral de la llengua, i ha après 1.700 milions de paraules i 95 milions de frases escrites. Aquestes dades s’han processat al superordinador MareNostrum descarregant textos de diferents fonts digitals en català. Però ara la prioritat és fer que també entengui el lèxic i la semàntica, és a dir les paraules i el seu significat, en el seu context –àmbits concrets com el de la salut o el jurídic– i el seu registre –col·loquial, literari o administratiu–. Per exemple, fer que els dispositius siguin capaços de distingir els diferents significats de la paraula banc o perfeccionar els motors actuals de traducció català-castellà, claus per a fomentar el coneixement i l'ús d'una llengua.

“Hem de dotar l'AINA de múscul i aquest és el pas que farem amb la recollida de veus”, ha explicat la responsable de la Unitat de Mineria de Textos del BSC i coordinadora del projecte, Marta Villegas. Per ara, i gràcies als arxius documentals de la Corporació Catalana de Mitjans Audiovisuals (CCMA), disposa de 1.000 hores de veu en català –que han de ser transcrites– i la idea és arribar a duplicar-les.

"Donants" de tots els dialectes

El projecte no busca crear aplicacions en català d’origen públic, sinó proporcionar a la indústria prou volum de dades per alimentar la intel·ligència artificial en català. “Si nosaltres no cuidem del català, si no fem aquest sobreesforç per al sector digital, ningú més ho farà”, ha afirmat Puigneró. Per fer aquest salt, primer cal que les grans empreses tecnològiques, però també les pimes i els emprenedors, vulguin desenvolupar els recursos digitals en català, una llengua que cada vegada té menys parlants. “Tenim la tecnologia de la nostra part”, ha dit Villegas, sobre la possibilitat que grans empreses com Google o Amazon se sumin al projecte. “Si tenen les dades, no els costa res incloure-ho i ho faran”, ha afegit, confiat, Puigneró.

I per convèncer el sector que cal “situar el català en el mapa digital”, calen milions i milions d’hores de veu en català de persones de tots els gèneres, edats, varietats dialectals i registres. La Generalitat destinarà 3 milions d’euros a la creació d’aquest diccionari oral i els primers passos ja s’estan fent amb l’enregistrament de les sessions al Parlament i els canals oficials de la Generalitat a YouTube. Puigneró també ha mostrat voluntat d'impulsar un assistent de veu propi per complementar els serveis d'atenció de la Generalitat, però no ha concretat cap calendari.

Amb tot, la peça clau serà la participació de la ciutadania a través de la iniciativa de Common Voice de Mozilla pel català. En aquesta plataforma, tothom que ho vulgui podrà llegir i enregistrar un nombre il·limitat de frases (agrupades de 5 en 5 però sense límit) o validar els àudios fets per altres persones. I tot i que aquesta col·laboració es pot fer de manera totalment anònima, conèixer el gènere, l'edat i la variant dialectal del “donant” facilitarà molt la feina de classificar les dades i saber si s’està incloent tota la diversitat lingüística (la catalana, la balear i la valenciana). Els interessats en participar-hi poden fer-ho en el següent enllaç.

L'obtenció d'aquest volum i concreció de dades és especialment difícil per a les llengües minoritàries. Des del 2020, s’han generat 10 gigabytes de dades textuals en llengua catalana, i cal tenir en compte que el diccionari anglès n’ocupa 825 i el castellà, 560.

stats