Dígits i Andròmines
Mèdia 19/06/2023

21 aplicacions d'intel·ligència artificial més enllà de ChatGPT

Proposem un recull d’eines d’intel·ligència artificial generativa per crear, manipular i optimitzar textos, imatges, sons, vídeos i codi informàtic

4 min
Una usuaria mirant el web de harpa.ai

BarcelonaQualsevol diria que la intel·ligència artificial (IA) va néixer el novembre passat, quan OpenAI va presentar el xatbot ChatGPT. Però ja fa anys que la nostra vida està regida pels algoritmes. És evident en l’entorn digital: quins missatges mai llegirem perquè han anat directament a la carpeta de correu brossa, quins tuits veiem a Twitter, quines fotos a Instagram, quins resultats de cerca a Google, quins anuncis en les webs i aplicacions mòbils on no paguem amb diners. Però també en el món tangible: si el banc ens concedeix o no un crèdit, si el nostre currículum supera el filtre inicial d’un procés de selecció de personal, si anem a la nostra destinació seguint una ruta o una altra, són coses que depenen d'una manera o una altra de la IA.

Inscriu-te a la newsletter Sèries Totes les estrenes i altres perles
Inscriu-t’hi

Tot i això, ChatGPT ha monopolitzat des d’aleshores la conversa pública sobre el tema. Malgrat ser un servei experimental, ha aconseguit la fita de l’adopció més ràpida en la història d’internet, assolint els 100 milions d’usuaris en només dos mesos –si bé caldria veure quants l’han continuat usant més enllà de la curiositat inicial–. També ha provocat que Microsoft aboqui més de 10.000 milions d’euros al capital d’OpenAI per tenir accés preferent a la seva tecnologia. I que Google hagi accelerat el desplegament dels seus sistemes d’IA renunciant a la prudència que mantenia per temor a perjudicar el seu negoci troncal de publicitat digital.

Molts ciutadans s’interessen per experimentar aquesta tecnologia, i en concret l’anomenada IA generativa, que és la variant de la IA capaç de produir textos, imatges, sons, vídeos, codi informàtic i altres tipus de contingut a partir de dades existents. En les condicions adients, la IA generativa pot incrementar la productivitat dels humans i arribar al punt de semblar que iguala la creativitat humana. Per això –sense entrar en els aspectes ètics, com els drets de propietat intel·lectual, ni en les conseqüències laborals, socials i polítiques de la IA– he fet un recull, necessàriament limitat, d’eines, aplicacions i serveis d’IA que qualsevol pot provar actualment sense gaire complicació.

Generació de text

L’aplicació de ChatGPT que atreu més interès, gràcies a la seva capacitat per dialogar per escrit, amb sorprenent aplom i en molts idiomes –català inclòs– sobre qualsevol tema. S’hi pot xatejar a la web d’OpenAI, de franc en una versió més lenta o bé pagant per a més rapidesa. La variant més avançada està disponible en diversos serveis de Microsoft, com el cercador web Bing i el xat de l’aplicació Skype de videotrucades. Entre les alternatives a ChatGPT destaquen el Bard de Google (ara com ara, per usar-lo aquí cal simular que som fora de la UE mitjançant una aplicació VPN de xarxa privada virtual) i el Claude d’Anthropic, només accessible via aplicacions de tercers com Slack.

Extensions de ChatGPT

El xatbot d’OpenAI està entrenat només amb contingut anterior a l’any 2021. Per poder dialogar-hi sobre temes més recents cal connectar-lo a la web, com fa internament el Bing Chat de Microsoft. Però també podem instal·lar al nostre navegador web Firefox, Safari o Chrome diverses extensions (plugins) que amplien la funcionalitat de ChatGPT en la seva versió de pagament (20 euros al mes). Per exemple, AIPRM ofereix plantilles d’instruccions per dialogar amb el xatbot; YouTube Summary transcriu i resumeix automàticament el contingut d’un vídeo de YouTube; HARPA AI respon a missatges de correu electrònic, tuits i publicacions en xarxes socials, resumeix el contingut de la pàgina web que tenim oberta i reescriu els textos que li donem. Grammarly revisa l’estructura dels textos que li donem i suggereix com millorar-los. Hyperwrite proposa com acabar una frase i busca sinònims. OpenAI Translator tradueix textos entre 55 idiomes diferents. Fireflies i Otter transcriuen automàticament el que es diu en una videoconferència, simplificant la confecció de l’acta corresponent. Arcwise ajuda a crear fórmules per a fulls de càlcul i facilita interrogar-les.

Generació d’imatges

El pitjor malson dels il·lustradors: eines on escrius tan detalladament com sigui possible el que vols que surti en una imatge, sigui real o fictici, i t’ho pinten en pocs segons. MidJourney, la referència actual en aquest àmbit, proporciona imatges fotorealistes d’una gran qualitat. És molt significatiu que l’ordre que cal donar-li al xat Discord –l’única manera de fer servir ara MidJourney– per demanar-li una imatge sigui /imagine. Una eina alternativa com Stable Diffusion s’ha fet molt popular gràcies a la capacitat d’entrenar-la amb imatges existents per obtenir-ne variants; per exemple, si li carregues fotografies teves li pots demanar que et generi retrats teus en altres estils, on apareixes com a professional seriós o com a personatge de videojocs. OpenAI també té el seu generador d’imatges a partir de descripcions de text: el DALL-E 2, que permet pujar-hi imatges i demanar-li que les modifiqui.

Vídeo i àudio

A partir d’un guió, Synthesia genera vídeos que poden servir per a formació o promoció de productes. En sentit contrari, Whisper està reconegut com un dels millors transcriptors d’àudio a text, ideal per transcriure entrevistes o per generar els subtítols d’un vídeo. En l’àmbit de la creació musical, hi ha nombroses eines per generar (fins ara se’n deia compondre) fragments breus o cançons senceres: a Beatoven i Soundful només cal dir-los la durada, el tempo i el gènere. Ecrett permet intervenir sobre cadascun dels instruments, a l’estil dels editors musicals sense IA. Tant Google (MusicML) com Meta (MusicGen) disposen de generadors de música, però no estan oberts a l’ús del públic.

Programació

GitHub CoPilot serveix tant per interpretar codi informàtic en desenes de llenguatges de programació com per generar programes nous mitjançant indicacions del que l’usuari pretén que facin. Tant CoPilot com AlphaCode de DeepMind, filial de Google, estan entrenades amb milers de milions de línies de codi existents, i per això superen en precisió i qualitat del codi resultant les eines genèriques com ChatGPT.

Una advertència final: tingueu present que usant pràcticament totes les plataformes citades les estareu entrenant amb la informació que els doneu, amb la vostra. Quedeu avisats, que després tot són disgustos.  

stats