Tecnologia

El ChatGPT més ambiciós d'Europa s'entrenarà a Barcelona i pensarà en català

Sánchez anuncia un model d'IA amb les quatre llengües cooficials i 150 milions d'euros per potenciar-ne l'ús

Pedro Sánchez intervé a l'acte de HispanIA 2040.
20/01/2025
4 min

BarcelonaFacin la prova: entrin a DALL-E, una mena de ChatGPT d'imatges, i demanin a l'aplicació que els faci un gegant de Messi. Segurament, el que els generarà no tindrà res a veure amb el que pensen. Això és així perquè no és suficient que la intel·ligència artificial (IA) sigui capaç d'entendre una llengua, sinó que també en necessita el context, tant cultural com social, per generar un contingut de valor. Aquí és on entra en acció Alia 40B, un nou model de processament de llenguatge natural que treballa en català i les llengües cooficials de l'Estat (castellà, gallec i basc) i que ha presentat aquest dilluns el president espanyol, Pedro Sánchez, juntament amb una mobilització de 150 milions d'euros per potenciar la integració i l'ús de la IA a les empreses espanyoles.

Tot i que ja n'hi ha disponible una versió molt avançada, s'espera que Alia estigui del tot enllestida al març. El model s'integra en un ambiciós projecte també anomenat ALIA que s'emmarca en l'Estratègia d'Intel·ligència Artificial 2024, aprovada l'abril de l'any passat pel govern de Pedro Sánchez. El Barcelona Supercomputing Center (BSC-CNS) serà l'encarregat de coordinar aquest pla. “És el model més gran finançat públicament a Europa que s'ha fet mai”, valora Marta Villegas, al capdavant de la unitat de tecnologies del llenguatge del BSC.

Sánchez ha destacat l'aposta del seu executiu per la supercomputació, els semiconductors i la IA, perquè s'hi veu una "oportunitat inabastable", i ha destacat les potencialitats de la IA si se'n fa un ús responsable. De fet, d'acord amb l'aposta europea per una IA transparent, responsable i al servei de la ciutadania, Alia es presenta com una infraestructura pública i oberta que persegueix reforçar la sobirania tecnològica europea.

Entre els objectius d'Alia hi ha crear i expandir una família de models de processament de llenguatge natural, que són la base de la majoria d'aplicacions d'IA generativa, com ara el popular ChatGPT, en les llengües cooficials de l'Estat. En aquest sentit, ALIA 40B està especialment enriquit en català, amb milers de milions de dades procedents de centres de recerca, mitjans de comunicació públics, articles científics, el butlletí de la Generalitat i repositoris de tesis doctorals, entre més. Això el converteix en el millor model d'IA públic disponible en la nostra llengua i es podrà aplicar en sectors clau de l'economia catalana, des de la biomedicina fins a la indústria.

El model europeu públic més gran

“És una fita molt important, encara que no sigui la versió final”, destaca Villegas, que afegeix que, a més, els pròxims mesos n'aniran traient models adaptats a diferents àmbits especialitzats, com ara el jurídic i el tecnològic. “De la mateixa manera que a l'època industrial va ser fonamental que es construïssin carreteres i vies de ferrocarril per afavorir l'activitat econòmica, a l'era digital sembla que bona part de l'activitat girarà al voltant de la IA”, posa com a metàfora Albert Cañigueral, responsable de coordinació i desenvolupament de tecnologies del llenguatge i intel·ligència artificial del BSC. En aquest sentit, afegeix: “Tant el govern espanyol com el BSC han considerat que calia una infraestructura pública d'IA”.

El model, un dels primers que ha passat pel procés de certificació d'una agència de certificació d'IA estatal, s'ha entrenat amb 35 llengües europees i 92 llenguatges de programació. Les llengües cooficials de l'Estat suposen un 20% del total de les dades amb què s'ha entrenat, tot i que el català “només constitueix un 1,97% de les dades d'entrenament”, puntualitza Ariadna Font i Llitjós, cofundadora i directora d'Alinia.AI, si bé matisa: “En altres models [el percentatge] és encara menys”.

Per a aquesta experta en IA ètica, que no participa en ALIA, és crucial disposar d'un model fet “a casa” i entrenat amb dades de “la nostra cultura”. “Dependre de models que venen dels EUA o de la Xina és perillós perquè no tindran ni la nostra cultura ni valors com a eix central, ni molt menys la llengua”. Per això, considera Font i Llitjós, és important que tant l'administració com el BSC entomin el repte: “Cal pensar que sobre aquest model altres empreses faran els seus productes secundaris i, per tant, és crucial tenir una base de qualitat, alineada amb els valors de la nostra cultura”.

Un xatbot per a Hisenda i una app d'atenció primària

La publicació del nou model ja permetrà diverses aplicacions. D'una banda, un xatbot intern per garantir el treball de l'Agència Tributària i la seva atenció a la ciutadania. De l'altra, una aplicació per a l'atenció primària que, a partir de l'anàlisi avançada de dades, permetrà un diagnòstic precoç i més precís de les insuficiències cardíaques. “És necessari que impulsem la integració de la IA en els nostres sistemes públics per aconseguir com més aviat millor els guanys en eficiència i sostenibilitat”, ha dit Sánchez.

En aquest sentit, el president espanyol ha anunciat que invertiran 150 milions d'euros per potenciar la integració i l'ús de la IA a les empreses espanyoles. “Aviat destinarem 20 milions a 500 casos d'ús en petites i mitjanes empreses”, amb l'objectiu de fer un ecosistema més innovador i competitiu.

Reptes de l'administració

A Catalunya, fa uns mesos, amb un model anterior d'ALIA i en col·laboració amb la Generalitat i institucions com ara Eurecat/CIDAI, el BSC va col·laborar precisament en una hackató (Aina Hack) per trobar solucions a reptes de l'administració. I ja és previst que, en col·laboració també amb Eurecat i altres organismes per a la transferència tecnològica, es facin reunions amb empreses per presentar el model i les oportunitats que els pot suposar. “El que es presenta avui és la punta de llança. A partir d'aquí també tenim models més petits i usables, des de models de veu a models per fer traduccions, un ventall de models perquè cadascú els pugui adaptar a les seves necessitats”, explica Cañigueral.

stats