'Quatre vectors cap a una cultura de la IA' | Barcelona Metròpolis

Quatre vectors cap a una cultura de la IA

Impactes de la intel.ligència artificial

Dossier
jul. 23
8 mins

José Luis de VicenteComissari i investigador cultural

Des del 2023 és director del Museu del Disseny de Barcelona (DHUB). Ha estat fundador i director artístic del Sónar+D, el programa d’arts i idees del festival Sónar de Barcelona; cofundador de Model, el Festival d’Arquitectures de Barcelona, i comissari del festival Llum BCN.

Les habilitats creatives ja es poden replicar a través d’aprenentatge profund (deep learning) i xarxes neuronals, però el seu veritable potencial resideix en la possibilitat de la col·laboració i no de la substitució. Dues subjectivitats diferents, una d’humana i una altra d’automatitzada, es poden trobar a mig camí i produir un espai simbòlic mutu i temptador, ple de possibilitats, però també de vies mortes. Aventurar quin impacte artístic tindrà la IA a mitjà termini és tan prematur com superb.

El mite de la creativitat

El fantasma de l’automatització i el seu impacte sobre el mercat laboral i la forma de la societat del demà ha generat incomptables anàlisis i pronòstics des de començaments del segle XXI. Durant un temps, en aquests debats s’hi aplicava una regla lineal: com més mecànica i rutinària fos una tasca, més senzill seria d'automatitzar-la. A partir d’aquesta lògica, les professions en què la creativitat tingués un paper central serien les que estarien menys amenaçades per la substitució. Aquesta mena d’“excepció creativa” reafirmava, en certa manera, un estatus especial dels artistes i creadors a la societat.

Si l’explosió —des de l’estiu del 2022— d’eines d’IA per a la creació en múltiples àmbits ha tingut algun efecte revelador, ha estat el de posar fi a aquest miratge. L’aplicació amb finalitats productives d’eines com el ChatGPT o Midjourney no cerca, en la majoria dels casos, l’excel·lència artística, sinó l’eficiència rendible. “Prou bo (i infinitament més barat)” és el factor decisiu en unes indústries creatives en què la gran majoria de tasques quotidianes no aspiren a l’originalitat extrema ni a la ruptura dels motlles establerts. Des d’aquesta posició, els dibuixants, músics, periodistes o realitzadors de vídeo es comencen a reconèixer en la mateixa posició que qualsevol altre col·lectiu subjecte a la imposició d’un nou ordre emergent, que no negocia les condicions.

Acumulació per despossessió (digital)

Qualsevol aplicació creativa d’IA opera a partir d’un model entrenat amb quantitats de dades enormes. Stable Diffusion, un dels generadors d’imatges més populars, va desenvolupar el seu model a partir del conjunt de dades LAION-5B, publicat en obert a internet el març del 2022. LAION-5B consta de gairebé 6.000 milions d’arxius que combinen imatges amb etiquetes de text que n’identifiquen el contingut[1]; imatges obtingudes a internet, producte de l’esforç col·lectiu quotidià dut a terme per tots nosaltres, els usuaris de la xarxa.

Al llarg dels darrers trenta anys, però sobretot durant l’era daurada del social media i l’emergència del telèfon intel·ligent a partir del 2007, la producció social de dades en grans volums ha estat part del pacte implícit en el model econòmic de la indústria d’internet. El tracte acceptat per tots era senzill: a canvi de fer servir de manera gratuïta tota mena de serveis digitals, se’ns anima a produir i compartir activament com més informació millor. Inicialment, la cadena de valor consistia a agregar a gran escala dades personals, que permetessin la producció de perfils de consumidors, empaquetar-les i convertir-les en mercaderies.

La indústria de l’aprenentatge automàtic ha afegit una capa de valor addicional a aquestes muntanyes de contingut que la web atresora. És la matèria primera idònia per entrenar models amb capacitat de produir el que alguns anomenen “intel·ligència”, i d'altres, simplement, “capacitat de predicció estadística”. Un generador d’imatges automàtiques pot produir un gat de qualsevol raça i color amb fidelitat i precisió, perquè el model es pot alimentar d'una disponibilitat infinita d’imatges de gats procedents de la web.

Darrere de cada una d’aquestes imatges pujades a una xarxa social, a un àlbum de fotos o a una notícia en un mitjà de comunicació, hi ha ciutadans, autors, creadors, artistes, fotògrafs professionals o aficionats, i qualsevol altra categoria de productor imaginable. Per descomptat, cap companyia de deep learning ha fet un esforç previ per obtenir els drets d’ús d’aquestes imatges. Tampoc s’ha limitat a utilitzar imatges lliures de drets o emparades per sistemes de llicències lliures, com les Creative Commons. Els creadors d’alguns dels serveis més populars, com ara Midjourney, s’han excusat al·ludint a la impossibilitat de produir una eina com aquesta si haguessin d’obtenir individualment els drets d’ús de milers de milions d’imatges. La responsabilitat s’ha invertit, i és l’autor qui ha de sol·licitar expressament que les imatges siguin excloses del model.

El terme acumulació per despossessió, encunyat pel geògraf urbà i teòric social marxista David Harvey per designar la capacitat del capitalisme per mercantilitzar el que prèviament era compartit i comú, s’expressa a la perfecció en aquest procés. Fins i tot si considerem el potencial expressiu i creatiu d’aquestes noves eines com a socialment beneficiós i artísticament productiu, el capital simbòlic i cognitiu d’una gran tasca col·lectiva torna a quedar controlat i capturat de manera extractiva per uns quants.

Centaures

En tots els diagnòstics inicials, l’emergència de la IA com una força transformadora es considera a partir de la lògica de la substitució: els robots i els sistemes automàtics ocuparan el nostre lloc. Però tan cert és que moltes habilitats es poden replicar, com que el veritable potencial de la IA com a nou paradigma per a la creació procedeix de la possibilitat de la col·laboració, no de la substitució. Dues subjectivitats diferents, una d’humana i una altra d’automatitzada, es poden trobar a mig camí i produir un espai simbòlic mutu, amb resultats diferents dels que els creadors podrien obtenir per si sols.

En realitat, que escriptors, músics o arquitectes deleguin decisions fonamentalment creatives en sistemes de regles, processos evolutius autònoms o eines amb capacitat de produir respostes pròpies no és particularment nou. Hi ha precedents, des de la llarga tradició de l’escriptura automàtica i el cut-up, l’art basat en instruccions i l’art algorítmic dels anys seixanta del segle xx, fins a les múltiples eines generatives que productors de música electrònica o arquitectes parametricistes han fet servir de manera quotidiana les darreres dues dècades.

El dissenyador d’interacció Matt Jones utilitza la imatge evocadora del centaure, la criatura mitològica meitat humà i meitat cavall, per promoure una visió simbiòtica de la col·laboració creativa entre humans i màquines. Cada una de les dues parts d’aquest creador híbrid aporta els seus millors actius i capacitats i reposa sobre l’altra en els aspectes en què està en desavantatge.

El mitjà és el model

El juliol del 2015, el programador de Google Alexander Mordvintsev va llançar el projecte DeepDream, una eina que utilitza una xarxa neuronal per buscar el rastre d’imatges possibles dins d’altres de ja existents. Les imatges produïdes per DeepDream són calidoscopis visuals que és inevitable relacionar amb l’estètica de la psicodèlia, el referent més a mà per reconèixer-les com a part d’una tradició anterior. Els anys següents, els artistes que van explorar l’espai de possibilitat de les xarxes neuronals i l’aprenentatge profund es van abocar en l’ús de les xarxes neuronals generatives adversàries (GAN), una metodologia específica per a la producció d’imatges. En els projectes de Gene Kogan, Mario Klingemann o Anna Ridler, les GAN ens mostren totes les variacions possibles que podrien existir en el procés de transformar una imatge en una altra de diferent, en un flux visual potencialment infinit.

El juliol del 2022, OpenAI, un dels gegants de la indústria del deep learning, va permetre l’accés públic al seu servei DALL·E 2, la primera eina popular de generació d’imatges a utilitzar una tecnologia específica d’aprenentatge profund, anomenada transformador (transformer). Les imatges produïdes a través de DALL·E 2 han inundat els canals digitals ràpidament. Es caracteritzen per un fotorealisme imperfecte capaç de produir imatges a primera vista verídiques, però que quan s’exploren amb més detall revelen inconsistències, com rostres borrosos o deformats. És fàcil relacionar un retrat generat amb DALL·E amb un esbós del pintor Francis Bacon.

A DALL·E 2 l’han succeït ràpidament altres transformadors, com ara Stable Diffusion o Midjourney, potser el més popular de tots a l’hora d'escriure aquest article. Midjourney s’ha convertit en una mena d’atles implícit de la història de la cultura visual. Els seus usuaris aprenen aviat que utilitzar l’ordre “En l’estil de” permet produir imatges que reprodueixen l’estètica de qualsevol pintor, il·lustrador o cineasta. Però el model indubtablement té biaixos, com qualsevol tecnologia basada en l’anàlisi estadística. Per exemple, és sorprenentment fàcil produir imatges que clonen l’estil del director de cinema nord-americà Wes Anderson; els seus colors saturats, enquadraments plans i composicions simètriques resulten relativament senzills d’imitar per al model, per la qual cosa es generen sense parar imatges “en l’estil” d’Anderson.

Sense necessitat de cap formació especial, qualsevol podria diferenciar a primera vista una imatge produïda amb DeepDream d’altres de generades amb una GAN, amb DALL·E 2 o amb Midjourney. Però a més, els artistes més destacats en aquest mitjà (Refik Anadol, Holly Herndon iMat Dryhurst) són els que produeixen els seus propis models, en comptes de limitar-se a utilitzar les mateixes eines genèriques que fan servir tots els altres.

En menys d’una dècada de pràctiques artístiques frenètiques al voltant de l’aprenentatge profund i les xarxes neuronals, els models grans del llenguatge, les GAN i els transformadors generatius, les estètiques possibles de la intel·ligència artificial s’estan revelant com un espai temptador, ple de possibilitats i de vies mortes, de llocs comuns, però també d’un estranyament profund. Qualsevol conclusió rotunda i categòrica sobre l’impacte artístic de les tecnologies d'IA a mitjà termini seria tan prematura com superba.

[1] Qualsevol que tingui curiositat per esbrinar què hi ha a l’interior del model el pot descarregar a https://laion.ai/blog/laion-5b/

Temàtiques relacionades

José Luis de VicenteComissari i investigador cultural

Del número

N127 - jul. 23 Índex

El butlletí

Subscriu-te al nostre butlletí per estar informat de les novetats de Barcelona Metròpolis

Subscriu-t’hi

Barcelona Metropolis

N131 - jul. 24 | La metamorfosi del treball