Dígits i Andròmines

L'FBI, a la caça del web arxivat que incomoda els mitjans

Les autoritats nord-americanes volen identificar el fundador d'Archive Today, servei que permet burlar els murs de pagament dels mitjans

Algú mirant la web d'Archive Today
15/11/2025
4 min

L'FBI s'ha posat en marxa per desemmascarar el fundador anònim d'Archive Today, un servei que permet saltar els murs de pagament dels mitjans de comunicació. Un nou episodi del conflicte entre els propietaris de contingut i les plataformes que asseguren preservar-lo, ara contaminat per l'entrenament dels models d'intel·ligència artificial.

Inscriu-te a la newsletter Sèries Totes les estrenes i altres perles
Inscriu-t’hi

La citació federal reclama al registrador de dominis Tucows informació exhaustiva sobre el titular del domini web: nom del client, adreces, registres de trucades i missatges, informació de pagament, adreces IP, i "qualsevol altra informació identificativa". Tot en el marc d'una "investigació criminal federal" que no especifica el delicte, encara que la vulneració de drets d'autor és l'aposta més probable després que el consorci de mitjans News/Media Alliance aconseguís el juliol passat el tancament del servei similar 12ft.io. Tucows té fins al 29 de novembre per atendre les exigències de les autoritats, però l'operador anònim –es parla de "Denis Petrov" de Praga i també de "Masha Rabinovich" de Berlín– continua funcionant amb normalitat a través dels seus dominis mirall (archive.is, archive.ph, archive.vn) i fins i tot un servei xifrat Tor.

Mentre Archive Today preserva centenars de milions de pàgines web amb un pressupost testimonial, els grans conglomerats mediàtics mobilitzen les autoritats per perseguir un arxiu que, entre altres coses, documenta com ells mateixos modifiquen o esborren notícies sense deixar rastre. Però el negoci és el negoci, i els murs de pagament són sagrats en temps de lectors minvants i clics robats pels resums fets amb IA.

Els grans conjunts de dades que entrenen la IA comercial

Si Archive Today incomoda els mitjans per motius econòmics directes, Common Crawl ho fa d'una manera més subtil i massiva. Aquest servei californià sense afany de lucre fundat per Gil Elbaz porta des del 2007 recorrent la web amb exploracions mensuals de 2.000 a 5.000 milions de pàgines que duren un parell de setmanes i ocupen entre 250 i 460 terabytes cadascuna. D'aquesta manera ha generat un arxiu de 9,5 petabytes que posa gratuïtament a disposició pública. Però aquesta generositat aparentment filantròpica ha tingut un efecte col·lateral lucratiu: s'ha convertit en la matèria primera per entrenar la majoria dels grans models de llenguatge (LLM) de la IA.

Segons The Atlantic, OpenAI i Anthropic van donar a Common Crawl 250.000 dòlars cadascuna el 2023, l'any en què els seus models GPT-4 i Claude escalaven comercialment. No cal ser gaire perspicaç per saber el motiu: entre el 60% i el 82% del contingut amb què es va entrenar GPT-3 provenia de Common Crawl. Models com Llama de Meta, T5 de Google, Bloom i desenes d'altres beuen del mateix pou.

Des del punt de vista dels propietaris de contingut, la clau del problema és com funciona Common Crawl: cada operació de rastreig captura el codi HTML complet de les pàgines, incloent-hi el text que després els murs de pagament amaguen mitjançant JavaScript. Així s'obre una "porta del darrere" involuntària per accedir a contingut restringit de centenars de publicacions, des del New York Times fins a l'ARA. L'organització diu respectar els fitxers de blocatge nofollow i robots.txt que els propietaris de webs poden incloure per evitar ser explorats, però els editors han exigit sense èxit l'eliminació del contingut ja arxivat. Common Crawl els respon que el format tècnic complica aquesta supressió, però sembla una excusa. Des de mitjans del 2023, el servei presumeix a la portada de la seva web del seu paper en l'entrenament de models d'IA, assegurant que el 82% dels tokens (unitats de dades) de GPT-3 provenen del seu arxiu.

L'univers dels arxius web

Archive Today, que viu del micromecenatge –800 dòlars setmanals, uns 36.000 euros anuals–, conté 700 terabytes i uns 500 milions de pàgines emmagatzemades des del 2012. La seva arquitectura captura cada pàgina de manera completa: crea una versió HTML funcional amb enllaços vius i una captura de pantalla estàtica, amb un màxim de 50 megabytes per pàgina.

Però Archive Today és diminut si el comparem amb els 99 petabytes de l'Internet Archive –amb 745 nodes, 28.000 discs i quatre centres de dades–. Amb la seva Wayback Machine, que preserva més d'un bilió de pàgines web des del 1995, és la referència dels arxius web: institucional, transparent i amb categoria de dipòsit legal.

Efectes sobre el català en la IA

Un aspecte col·lateral d'aquests arxius amb grans volums de text és el lingüístic. L'ecosistema està dominat per l'anglès, que representa gairebé la meitat de Common Crawl; alemany, rus, japonès, xinès, francès i espanyol tenen cadascun menys del 6%, i el català hi és pràcticament invisible. Dels 90 idiomes amb què OpenAI va entrenar GPT-3, el 92,7% era contingut en anglès i només un 0,017% en català. D'aquí la importància del Projecte Aina, liderat per la Generalitat i el Barcelona Supercomputing Center: en els seus models Salamandra, l'anglès representa menys del 40% del contingut d'entrenament i el català multiplica per 100 el seu pes respecte al de GPT-3 i assoleix gairebé un 2%.

Entre la persecució legal i la preservació oberta

La campanya de criminalització dels arxius digitals té un nou episodi destacable: Google ha eliminat dels seus resultats de cerca 749 milions d'enllaços a la web Anna's Archive –successora de Z-Library després que el govern dels EUA li confisqués els dominis el 2022–. La web oferia 51 milions de llibres i gairebé 100 milions d'articles acadèmics.

Curiosament, aquest mateix Google que exclou massivament llibres piratejats dels resultats de cerca pertany a Alphabet, la matriu de Google DeepMind, que ha entrenat els seus models Gemini amb dades de Common Crawl. Anna's Archive ha admès obertament que ha proporcionat accés obert a 30 desenvolupadors de LLM per entrenar-los amb el seu "arxiu il·legal de llibres", però a diferència d'OpenAI o Meta –que va ser acusada d'haver piratejat 81,7 TB de llibres per entrenar el seu model Llama– no rep donacions estratègiques de 250.000 dòlars. El lloc continua operatiu amb tres dominis sense allotjar contingut piratejat, només enllaços: una zona grisa legal defensada amb l'argument que "preservar i allotjar aquests fitxers és moralment correcte".

El debat de fons és si preservar la web oberta és un bé públic o un delicte quan incomoda interessos comercials. Els mitjans argumenten pèrdua de subscripcions i d’ingressos publicitaris; els arxivers defensen la preservació històrica, la verificació de fets i l'accés a la informació. Però quan l'FBI es dedica a perseguir operadors anònims d'arxius mentre OpenAI i Anthropic –valorades en desenes de milers de milions– entrenen els seus models amb contingut explorat industrialment sense compensar els creadors, la diferència de tracte fa pensar. Potser la clau no és qui arxiva, sinó qui té prou diners per fer-ho amb donacions estratègiques. El màrqueting tecnològic en diu "democratitzar l'accés al coneixement". Els advocats dels mitjans ho anomenen "robatori". Potser la resposta està arxivada en algun servidor del núvol, esperant que algú la filtri amb les instruccions oportunes.

stats