06/11/2015

Setmana de dades massives a Barcelona

4 min
Setmana de dades massives a Barcelona

“Les dades són el petroli del segle XXI”. Probablement ha sigut la sentència més repetida pels ponents del Big Data Congress, que ha tingut lloc aquesta setmana a Barcelona. Una sola veu discordant: Josep Maria Marquès, de Barcelona Activa, que prefereix evitar l’analogia per totes les desgràcies que ha portat i continua portant l’or negre a la humanitat. A banda d’això, l’acord entre els participants és total: la captació de dades massives i la seva anàlisi són un element fonamental de les societats actuals i les seves economies i ho seran cada vegada més. Eurecat, el centre tecnològic organitzador de la trobada, estima que sis milions de persones treballen ja en aquest sector a Europa i que durant els pròxims sis anys caldrà fitxar-ne 900.000 més: de fet, durant les sessions, almenys tres ponents van oferir feina des de l’escenari als assistents.

Inscriu-te a la newsletter Sèries Totes les estrenes i altres perles
Inscriu-t’hi

El volum d’informació disponible creix a un ritme vertiginós i el repte és transformar-la en coneixement respectant la privadesa de les persones, tot i que algunes de les pràctiques actuals ja fan dubtar que aquest requisit s’estigui complint. En part, cal dir-ho, per la deixadesa dels mateixos usuaris: Josep Lluís Cano, d’Esade, creu que quan descarreguem una aplicació al mòbil n’acceptem els termes i condicions de la mateixa manera que responem “sí, carinyo” a la nostra parella, sense pensar en les conseqüències. Sigui com sigui, la professora de bioètica de la UB María Casado recorda que la suposada dicotomia entre seguretat i privadesa és falsa; en tot cas ens ho volen vendre així perquè mantenir la seguretat respectant la privadesa resulta més car. Tant Casado com Cano ho concreten: molts consumidors es resignen al “tant li fa, tindran les meves dades igualment” sense ser conscients que no les cedeixen només a qui els hi demana; una captació d’informació personal suposadament anònima acaba sent-ho quan es calcula la probabilitat d’identificar algú disposant només de la seva data de naixement, el sexe i el codi postal.

L’accés a les dades i la possibilitat de tractar-les tenen efectes inesperats. Marc Garriga, de DesiderDatum, explica el cas d’una cafeteria situada prop de l’estació de Boston que va incrementar el temps de permanència -la despesa- dels clients instal·lant una pantalla que informa del temps que falta perquè surti l’autobús següent: els passavolants que abans compraven un cafè per emportar-se ara s’asseuen i demanen també un tall de pastís. Jordi Puigneró, director general de Societat de la Informació de la Generalitat, reconeixia que hi ha alcaldes que s’assabenten abans de problemes a les seves poblacions per les petites dades que aporten els ciutadans que per les grans dades dels serveis TIC municipals. També deia que “la capacitat de recaptar impostos depèn de la capacitat de recopilar dades”, un aspecte que cal tenir present en el moment actual del país.

El mateix Puigneró apuntava al Big Data Congress la importància de les infraestructures, i suggeria una cosa que potser no agradarà a alguns sectors econòmics: per ser competitius en una societat digital basada en les dades “potser hauríem de fer menys carreteres i ponts i instal·lar en canvi més sensors, centres de procés de dades i recursos de supercomputació”. També proposava que l’administració inverteixi en infraestructures de fibra i mòbils 4G sense deixar els desplegaments exclusivament en mans privades. Un cas d’ús de les dades massives que pot reforçar aquesta postura és l’aplicació Cobertura Mòbil, que fa servir telèfons dels ciutadans per mesurar la qualitat del servei i acumular dades que permetin pressionar les operadores.

El tractament de les dades massives té els seus problemes específics, com l’anàlisi esbiaixada: Ricardo Baeza-Yates, vicepresident de recerca de Yahoo Labs, afirma que si proporciones les mateixes dades a 20 grups d’analistes, 12 en trauran conclusions positives i 8 de negatives. A més, el volum de dades no estructurades creix molt més ràpid que el de les estructurades: en el contingut de la web hi ha un 25% de redundància lèxica i un 35% de redundància semàntica. La meitat de les consultes en qualsevol cercador web no han estat fetes mai abans, però tothom interroga a la seva manera: només són úniques el 5% de les paraules utilitzades en cerques a internet. Un altre biaix és el de l’activitat: la meitat del contingut de Facebook l’ha creat el 7% dels usuaris; en el cas de Twitter, el 2% dels tuitaires escriuen la meitat dels tuits, i la desproporció és encara més gran a la Wikipedia.

Un altre aspecte que té gran importància és la manera de visualitzar la informació. Daniel Villatoro, analista de dades de Vodafone, va protagonitzar una sessió accelerada i hilarant amb exemples de “com fer el mal amb les dades”. Des de la correlació entre la quantitat d’edicions de Gran Hermano i l’índex d’abandonament escolar en quatre estats europeus (sí, el cas més greu és l’espanyol) fins a l’ús de formats gràfics confusos o enganyosos, com la comparació de víctimes de violència de gènere per països, en què Espanya no sembla quedar gaire pitjor que altres llocs fins que s’observa que l’eix vertical del gràfic és logarítmic.

Amazon promou el seu núvol

La setmana de les dades a Barcelona s’ha completat amb la convenció AWS Summit, que la divisió de serveis al núvol d’Amazon -líder mundial indiscutible d’aquest sector- ha celebrat a la Fira de Montjuïc . Adreçada tant a creadors d’aplicacions com a empreses de qualsevol dimensió que vulguin flexibilitzar la seva infraestructura de TIC, tant per atendre puntes sobtades de consum com per estalviar costos, els directius d’Amazon comparen l’ús dels seus servidors i espai d’emmagatzematge amb la contractació del subministrament elèctric a les llars i les empreses: gairebé ningú té un generador de corrent a casa. Segons Jeff Barr, l’evangelista en cap d’Amazon, la majoria de les grans empreses tenen previst substituir els centres de dades propis per l’ús del núvol abans de dos anys. Males notícies per a rivals de la indústria informàtica tradicional, que basen la seva oferta en núvols híbrids que combinen els servidors propis del client amb els centres de dades al núvol. A l’Estat, empreses com Mapfre i el BBVA ja són clients d’Amazon Web Services.

stats