"És d'ells": què passa realment quan diem que internet ha caigut?
Una repassada a les pitjors interrupcions de serveis digitals d'un 2025 que ha estat un any especialment funest i il·lumina deficiències de la xarxa de xarxes
BarcelonaAquest 2025 que marxa ens ha recordat amb insistència que vivim en una societat dependent d'internet. Les xarxes i serveis digitals han experimentat algunes de les interrupcions més massives de la història recent, amb centenars de milions d'usuaris afectats arreu del món. El més preocupant: moltes caigudes han estat causades per errors humans, actualitzacions mal desplegades o configuracions defectuoses. ¿On ha quedat aquell internet distribuït que havia de ser resilient?
L'incident més greu va ser el 20 d'octubre, quan Amazon Web Services (AWS) va generar més de 17 milions de notificacions d'incidències a DownDetector. Però aquesta xifra només inclou els usuaris tan emprenyats que van tenir l'ànim d'entrar en una web de tercers i prémer el botó vermell. En la indústria s'estima que per cada persona que es queixa activament, n'hi ha entre 20 i 100 que simplement callen i reinicien el rúter. Amb una extrapolació conservadora, estem parlant de 850 milions de persones afectades: un de cada cinc internautes del planeta es va quedar penjat per culpa d'un error a Amazon.
L'avaria, de més de 15 hores, va tenir origen en el sistema de gestió automatitzada de DNS vinculat a la base de dades DynamoDB de la regió US-EAST-1. Aquest és el traster desordenat d'internet, a Virgínia, on s'acumulen capes de tecnologia obsoleta. Un punt únic de fallada que tots els arquitectes de sistemes saben que cal evitar, però que tothom fa servir perquè és on Amazon desplega primer les novetats.
El problema va ser d'una estupidesa tècnica que costa de creure. Una actualització automatitzada va fer que dos processos intentessin escriure al mateix temps en el sistema de DNS. En lloc de donar tanda primer a un i després a l'altre, el sistema es va fer un embolic i va decidir esborrar les rutes. Resultat: la base de dades funcionava perfectament, però ningú sabia com arribar-hi. Era com si algú hagués esborrat del GPS la fitxa de l'AP-7; l'autopista hi és, però els cotxes no la troben.
La ironia suprema és que els mateixos taulers de comandament d'AWS també depenien d'aquest DNS. Quan els enginyers d'Amazon van intentar entrar al sistema per solucionar el problema, no podien accedir-hi. Entre els usuaris afectats, els dels llits connectats Eight Sleep no van poder activar-los: hi ha gent que necessita AWS per dormir.
El segon incident més notori va ser el de la PlayStation Network el 7 de febrer, amb gairebé 4 milions de queixes. Els seus 116 milions d'usuaris mensuals es van quedar 24 hores sense poder jugar, en la segona caiguda més llarga de la història de PSN des del 2011. El més frustrant: va coincidir amb el llançament de la beta de Monster Hunter Wilds. La caiguda de PSN és un recordatori brutal: no som propietaris dels nostres jocs. Quan compres un joc per 70 euros a la botiga digital, compres el dret a jugar-hi mentre Sony vulgui i pugui mantenir el servidor encès. Fins i tot jocs per a un sol jugador donaven error si s'havien de connectar per validar la llicència.
Cloudflare, una empresa que es dedica precisament a protegir internet de caigudes, va protagonitzar interrupcions significatives. La del 18 de novembre va afectar Spotify, ChatGPT i Discord durant gairebé cinc hores. La realitat va ser prosaica: un enginyer va aplicar una actualització en la base de dades que gestiona la detecció de bots. El canvi va provocar que una consulta interna retornés dades duplicades, i això va fer que un fitxer de configuració creixés fins a superar el límit que el programari podia llegir. Quan els milers de servidors de Cloudflare van rebre aquest fitxer massa voluminós, el programari va entrar en pànic i els servidors entraven en un bucle infinit de reinicis. El CEO Matthew Prince va admetre que va ser "el pitjor incident des del 2019".
Aquí l'any també ha estat dur. El 28 d'abril Espanya i Portugal van viure l'apagada elèctrica més gran de la seva història recent. El trànsit d'internet va caure entre un 80% i un 90% durant més de 36 hores. Les xarxes mòbils es van apagar a mesura que les bateries de reserva s'esgotaven. L'economia espanyola va patir pèrdues estimades en 1.600 milions d'euros.
Tres setmanes després, el 20 de maig, Espanya va tornar a quedar mig desconnectada per una actualització de xarxa de Telefónica que va sortir malament. Madrid, Barcelona, València, Sevilla i Bilbao van reportar caigudes massives. El telèfon 112 d'emergències va deixar de funcionar en moltes comunitats autònomes. "Tots els serveis han estat restablerts, excepte un parell", va dir després el director d'operacions de Telefónica, amb una naturalitat impressionant.
Per què les caigudes afecten tanta gent
La resposta és tan simple com preocupant: internet està molt més centralitzat del que volem creure. Empreses com AWS, Cloudflare, Microsoft Azure o Google Cloud dominen el mercat. Quan una d'elles cau, arrossega milers d'aplicacions que en depenen. AWS té aproximadament el 32% del mercat mundial de computació al núvol. Quan el seu servei cau, plataformes com Netflix, Spotify o Roblox queden inaccessibles. L'incident d'octubre va afectar Delta, de manera que va impedir als passatgers fer la facturació. Cloudflare, per la seva banda, ofereix serveis a milions de llocs web. Quan els seus sistemes fallen, webs sense cap relació entre elles desapareixen simultàniament.
Per detectar aquestes interrupcions es combinen diversos sistemes de monitoratge distribuïts. Plataformes com ThousandEyes i Catchpoint utilitzen milers de punts de vigilància globals que analitzen cada dia milers de milions de mesuraments mitjançant protocols com el BGP (Border Gateway Protocol) i DNS. Quan hi ha canvis anòmals en les rutes BGP, els sistemes poden detectar interrupcions en qüestió de minuts.
DownDetector, propietat d'Ookla, aplica un enfocament diferent: agrega notificacions dels usuaris afectats. És menys precís tècnicament però molt efectiu per mesurar l'impacte real.
Quan es detecta una caiguda massiva, comença una cursa contrarellotge. Els enginyers han d'identificar primer la causa del problema en sistemes immensament complexos. Les empreses modernes utilitzen sistemes per revertir els canvis més recents. Cloudflare va trigar més de cinc hores perquè la configuració corregida s'havia de propagar per tots els seus centres de dades mundials.
En cas d'avaries elèctriques, la recuperació és més lenta i física. Els operadors han de restablir node per node, antena per antena. Les bateries de reserva donen aproximadament vuit hores d'autonomia, però en apagades prolongades es queden curtes.
Les lliçons del 2025
Aquest any ens ha ensenyat que potser hauríem de revisar la confiança cega en el núvol. La senadora nord-americana Elizabeth Warren va resumir-ho després de l'incident d'AWS: "Si una empresa pot trencar tot internet, és massa gran. I punt". També hem après que els errors humans són inevitables, però que els sistemes de recuperació són massa lents. Quan una configuració errònia pot deixar sense servei milions d'usuaris durant hores, caldria repensar com despleguem les actualitzacions en infraestructures crítiques.
Hem descobert que la promesa d'una arquitectura distribuïda d'internet és més un lema de màrqueting que una realitat. Tres o quatre empreses controlen la infraestructura essencial de la xarxa global. L'automatització, que ens havien venut com la solució a l'error humà, s'ha convertit en un amplificador d'errors que propaga fallades a la velocitat de la llum per milers de servidors abans que cap humà pugui dir "Ep, pareu màquines".
El 2025 encara no ha acabat, però ja ha estat prou eloqüent. Internet és molt útil quan funciona, però catastròficament inútil quan no. I cada vegada depèn més de menys mans. Quina tranquil·litat.