Dígits i andròmines
Mèdia 09/10/2022

Pintar canviant el pinzell per un text i un algoritme

La IA ja genera vídeos a més d’imatges estàtiques, mentre ignora les consideracions ètiques i comercials

4 min
Alguns fotogrames dels minifilms creats per Make-a-video, de Meta

Barcelona"Exterior, dia. Plou. Una parella de joves caminen pel carrer allunyant-se de la càmera mentre es protegeixen de la forta pluja compartint el mateix paraigua". Ara, per arribar a projectar en una pantalla de cinema o televisió l’escena que descriu aquest breu fragment de guió, el productor ha de contractar dos actors, posar-los en un carrer prèviament tallat al trànsit, situar-hi almenys una càmera amb el seu operador i esperar que plogui, o bé simular la pluja amb un costós dispositiu d’aspersors d’aigua. En el futur n’hi haurà prou amb introduir el text del guionista en una aplicació generadora de vídeo per obtenir el mateix resultat visual.

Inscriu-te a la newsletter Sèries Totes les estrenes i altres perles
Inscriu-t’hi

Si més no, en el futur que deixen entreveure diversos experiments de conversió de text a vídeo mitjançant algoritmes d’intel·ligència artificial (IA). Meta, l’empresa matriu de Facebook, Instagram i WhatsApp, va presentar a finals de setembre el sistema Make-A-Video, que crea automàticament fragments de cinc segons de durada i 768x768 píxels de resolució a partir de descripcions com la que obre aquest article (o d’altres més delirants, com per exemple aquesta: "Contra un cel blau amb alguns núvols blancs, un gos vestit de superheroi amb ulleres d’aviador i capa vermella vola cap a l’espectador"). La universitat xinesa de Tsinghua treballa en un sistema semblant, anomenat CogVideo. Per no quedar-se enrere, Google no ha trigat ni una setmana a fer públic que els seus enginyers també tenen entre mans no una, sinó dues plataformes d’IA que transformen descripcions de text en vídeos: com la de Meta, Imagen Video crea clips breus, de 128 quadres a 24 quadres per segon, però són de més resolució: 1.280x768 píxels; en canvi, Phenaki prescindeix de la qualitat d’imatge per centrar-se en la durada, potencialment il·limitada si el guió és prou llarg i detallat, com es veu en els exemples de la pàgina web del projecte.

Els resultats d’aquests models d’IA encara són molt incipients: les animacions que creen solen contenir aberracions i incoherències: si li demanes a Imagen Video que et mostri un osset de peluix pintant un quadre a l’oli ho fa, però el dibuix que pinta l’osset no canvia d’aspecte en tota l’estona. Tot i això, Make-A-Video, CogVideo, Imagen Video i Phenaki demostren que les aplicacions creatives de la IA avancen a una velocitat vertiginosa.

Fa menys de mig any els parlava aquí mateix dels models experimentals per generar imatges estàtiques a partir de text, com el DALL-E d’OpenAI i l’IMAGEN de Google. Des d’aleshores n’han sortit d’altres, com ara Stable Diffusion de Stability AI i Midjourney, que proporcionen resultats encara més realistes.

A més, l’ús d’aquestes tecnologies, fins ara restringit als investigadors, es troba ja l’abast del públic. Per exemple, DALL-E només oferia en obert la variant DALL-E Mini (ara anomenada Craiyon), que genera imatges de menys qualitat adoptades massivament pels creadors de mems d’internet. Ara ja està disponible també en la modalitat general i permet operacions fins ara prohibides, com pujar-hi fotografies de persones perquè l’algoritme les modifiqui: pots canviar virtualment de pentinat, maquillar-te, tatuar-te o donar-te un aire a l'estil Humphrey Bogart de Casablanca.

Tanta efervescència ha donat lloc a l’aparició d’un ecosistema derivat: als usuaris més mandrosos ja no els cal anar provant descripcions textuals per generar la imatge que tenen al cap: el cercador Lexica permet buscar entre més de cinc milions d’imatges creades amb Stable Diffusion (SD) i en la majoria dels casos veure quins descriptors s’han fet servir per generar-les. Entre el milió d’usuaris que SD ja té, n’hi ha un que s’ha entretingut a recrear amb aspecte foto-realista els personatges del videojoc Virtua Fighter de Sega, millorant-ne l’aspecte rudimentari que permetia la tecnologia fa 30 anys.

També s’estan aplicant models generatius d’IA en altres àmbits, com el so i la música. AudioLM de Google compon peces de piano; Jukebox d’OpenAI genera cançons senceres suggerint-li un gènere, un artista i unes estrofes de la lletra; Dance Diffussion d’HarmonAI aplica atributs d’una peça a una altra: transcriu per a flauta el tema principal de la pel·lícula Pirates del Carib o posa la veu dels Smash Mouth a la cançoneta de fons del joc electrònic Tetris.

Un derivat és una còpia?

A més de les consideracions ètiques (desinformació, suplantació), també han començat a sorgir-ne de comercials i de propietat intel·lectual. Els models de creació d’imatges estan entrenats amb imatges preexistents, la majoria extretes de la web oberta: molts es basen en el conjunt públic de dades LAION-5B, que conté 5.800 milions de parells imatge-descripció. A la web Have I Been Trained? podeu pujar una imatge pròpia per saber amb quin grau de probabilitat s’ha fet servir per entrenar algoritmes generatius. Si obteniu una certesa del 100%, ja teniu motius per consultar un advocat especialitzat en drets d’autor.

En aquest aspecte, s’haurà de definir quan es considera que una imatge (i més endavant, un vídeo) és original. Davant d’això, dos dels bancs comercials d’imatges més prestigiosos, Getty Images (80 milions d’imatges) i Shutterstock (415 milions) han optat per no admetre obres creades amb algoritmes d’IA, per tal de no exposar-se a demandes per vulneració dels drets d’autor. Mentrestant, la versió 2 de DALL-E ja generava dos milions d’imatges cada dia abans de ser oberta al públic. Això dona idea de la magnitud del repte que tenen al davant els creadors que treballen amb procediments convencionals.

Potser els artistes més cotitzats del futur immediat no seran els que sàpiguen fer servir millor el llapis, els pinzells, les aplicacions de dibuix, les videocàmeres o els programes d’edició de vídeo, sinó més aviat els que destaquin a l’hora de redactar les descripcions a partir de les quals els algoritmes generin les imatges, animacions i vídeos més atractius.

stats