En konstnärlig AI
Tänk om en dator kunde spotta ut realistiska och användbara bilder av en biblioteksmiljö full av människor som inte existerar – bilder som inte var upphovsrättsskyddade om du använde dem icke-kommersiellt. Tekniken är här och Digiteket tittar därför närmare på AI-genererad konst.
Ha i åtanke att teknikutvecklingen kring AI går väldigt snabbt och att mycket har hänt sedan den här artikeln publicerades. Innehållet och beskrivningarna av de övergripande utmaningarna tekniken för med sig har dock bedömts fortfarande vara relevant.
Bakgrund
Under försommaren publicerade Digiteket två artiklar (En arg, arg AI och En ledsen AI) om språkmodeller som med hjälp av AI utvecklat sina förmågor att skriva, konversera och svara på frågor. Tekniken är så häpnadsväckande att till och med en av Googles egna tekniker (inkorrekt) beskrev en AI som “självmedveten”. Parallellt med utvecklingen av AI:ns förmåga att skriva sker också en utveckling av AI-teknikers förmåga att skapa illustrationer. Även här börjar nivån på datorns alster bli så hög att vi närmar oss en punkt där det är omöjligt att skilja dem från bilder skapade av riktiga konstnärer. Utvecklingen mot denna punkt liknar utvecklingen av språkmodeller. Länge fokuserade man på teknik som skulle lära datorer principerna och reglerna för att illustrera. Men precis som med språk var reglerna för många och tolkningen av reglerna hängde ihop med kulturella referenser som var för komplexa för datorn att ta in. I och med utvecklingen av tekniken GAN (Generative Adversarial Network) 2014 fokuserade man istället på att låta datorer själv lära sig vad en bild är och vad olika bildelement består av genom oändlig repetition och trial and error. I och med detta tog utvecklingen en väldig fart och på bara åtta år har vi nått en punkt där illustrationer tillverkade av en AI når en fotorealistisk nivå.
Neurala nätverk
Digiteket har skrivit om neurala nätverk i flera tidigare artiklar och lektioner. En kort och bra genomgång hittar du i vår artikel om Deepfakes. I korthet handlar det om datorer som simulerarde ihopkopplade neuroner i hjärnan som gör att vi kan se och känna igen mönster. Information av någon form matas in i ett ingångslager. Denna information silas sedan genom en stor mängd mellanliggande lager som har specifika uppgifter – något mer komplext och konkret för varje nytt lager. Slutresultatet jämförs sedan med ett utgångslager kopplat till ett facit, och beroende på hur bra eller dåligt det neurala nätverket lyckas med sin uppgift skickas återkoppling tillbaka och leder till minimala justeringar i olika lager. Genom att denna process återupprepas miljontals gånger “lär” sig systemet vilka som är de bästa och mest effektiva lagerinställningarna för att få jobbet gjort.
Låt oss ta ett konkret exempel:
Det neurala nätverket har fått i uppgift att utifrån foton och illustrationer känna igen och identifiera bilar. I förlängningen skulle den sortens teknik exempelvis kunna användas för olika former av övervakning i trafikmiljö. För en människa är det lätt. Vi vet av levd erfarenhet vad en bil är och kan lätt skilja den från en traktor eller en container som står placerad vid vägkanten. För en dator är det givetvis helt okänd kunskap. När det neurala nätverket tittar på en bild är det ju egentligen bara binära ettor och nollor. Dessa ettor och nollor förmedlar i ett första läge information om färg och ljusintensitet. I en nästa, mer komplex nivå, bildar dessa färgpixlar vinklar och former och på en än mer komplex nivå kan dessa vinklar och former bilda skepnader som man kan sätta rubriker på: människa, byggnad, bil. I det neurala nätverket sker denna stegvisa identifiering i de olika lagren. Varje nytt lager har till uppgift att identifiera en specifik sak och sedan skicka information vidare till nästa lager kring vad det hittar. Nästa lager tar den informationen och letar efter något mer komplicerat och skickar sedan informationen vidare igen. På detta sätt kan nätverket bryta ner en bild, känna igen vissa kombinationer av pixlar, vinklar och former och i slutändan identifiera det som en bil eller inte. I utgångslagret får sedan nätverket reda på om det gjort rätt i sin identifiering i form av ett facit, och baserat på resultatet justeras lagren för att bli bättre nästa gång. Det låter kanske komplicerat, men tänk att bilar ser ut på tusen olika sätt. En bild på en bil kan vara allt ifrån en perfekt reklambild av en bil fotograferad från sidan till den suddiga bilden av en bil i rörelse i stadsmiljö, fotograferad från en byggnad högt upp snett framifrån. I båda fallen ska samma process känna igen de färger, vinklar och former som utgör bilens själva essens.
Med hjälp av stor processorkraft och oändliga iterationer kan nätverk tränas att i slutändan bli överlägsna människor i sin förmåga att identifiera bilder på detta sätt. Det neurala nätverket kan titta på en övervakningsbild från London och korrekt identifiera alla 67 bilar på en bild på samma tid det tar för en människa att sätta fingret på den första bilen. Ett dylikt nätverk skulle spöa människor i Var är Valle-böckerna alla dagar i veckan. När de väl lärt sig identifiera något är de otroligt effektiva.
GAN
GAN står för Generative Adversarial Network, eller på svenska Generativa motståndarnätverk. GAN är vad som händer när du tar två neurala nätverk med motsatta uppgifter och sätter dem mot varandra i tävlan. Exempelvis så har du tränat ett nätverk likt exemplet ovan att bli mycket bra på att förstå essensen av vad en bil är. Sedan har du tagit ytterligare ett steg och sagt till nätverket att utifrån sina en miljon olika bilder av bilar göra sin egen bild med en bil i. Den ska alltså själv skapa något nytt utifrån exempelmaterialet som den har fått. Den här sortensnätverk kallar vi generator. Det andra neurala nätverket är precis ett sådant som beskrivs i exemplet ovan: ett nätverk som blivit expert på att känna igen essensen bilar. Ett dylikt nätverk kallar vi kritikern.
Vad vi nu gör är att vi skapar en tävling mellan dessa två. Generatorn skapar bilder av bilar och kritikern berättar om det är en riktig bild av en faktisk existerande bil eller en falsk bild som generatorn bara har hittat på. Denna tävling är sedan kopplad till återkopplingsloopar som gör att de lär sig av varandra. Generatorn lär sig av vad det är som gör att kritikern kan skilja en riktig bild på en bil från en falsk. På samma sätt lär sig kritikern av generatorns bilskapande hur den bättre ska kunna skilja på en riktig bil och en falsk. I teorin kommer detta motståndarnätverk göra att både generatorn och kritikern blir bättre. Generatorn kommer att bli bättre på att rita realistiska bilbilder och kritikern kommer att bli bättre på att skilja korrekta bilbilder från falska. Det största lärandet sker när marginalerna mellan de båda är väldigt små.
2015 släppte Google sitt program Google Deep Dream, som kombinerar de egenskaper vi pratade om i det generativa motståndarnätverket ovan. Det är ett program som kan analysera och känna igen beståndsdelar av en bild: som kan skilja en bil från en byggnad från en katt. Det kan också manipulera och generera bilder från en datasamling för att likna just dessa former. Om du vill kan du testa programmets förmågor i Deep Dream Generator.
Med hjälp av Google Deep Dream kan användaren ladda upp ett foto och sedan instruera nätverket att använda det neurala nätverkets återkopplingsfunktioner för att leta efter önskade mönster och förstärka dessa i den riktning man vill. Ta ett foto av en person och säg: ”Jag vill att ni ska förstärka alla element i denna bild på ett sätt som gör att den ser ut som om den var målad av Vincent van Gogh.” Nätverket som har gjort miljoner genomkörningar vet vilka värden i de mellanliggande lagren som behöver justeras för att ge vissa specifika ändringsresultat i bilden.
På samma sätt skulle du kunna ladda upp en bild av Malmö stadsbibliotek och säga: ”Vad jag egentligen vill ha är katter. Ge mig så mycket katter som möjligt.” Nätverket vet vad som definierar en katt (ben, nos, öron, morrhår et cetera), och den vet genom sina mellanliggande lager vilka former, vinklar och kombinationer av ljus och färg som behövs för att forma en katt. Den kan nu helt enkelt steg för steg förstärka de element som existerar i bilden av biblioteket och gradvis omforma dessa till katter. Resultatet är mer än lite psykedeliskt. Ju fler iterationer du kör av instruktionen ”Hitta kattmönster”, ju närmare katter kommer det att bli. Här ett exempel efter tre iterationer.
Till vänster - Malmö stadsbibliotek. Till höger - samma bild genom tre iterationer med kattfilter av Deep Dream Generator
Personer som är icke-personer
I vissa specifika aspekter har de nätverk som genererar bilder blivit så skickliga att de kan leverera bilder som varken datorer eller människor kan skilja från verkliga. Detta gäller särskilt genererade bilder på människor. I fallet med motståndarnätverken som vi nämnde ovan har kvalitén blivit så hög att kritikern kan skilja en verklig bild från en datorgenererad i 50 procent av fallen – det vill säga den kan bara gissa! Denna teknik har lett fram till sidor som This person does not exist från vilken vi plockade den icke-existerande individen vi omvandlade till van Gogh-tavla lite längre upp i denna artikel. Inte tänkte du väl att originalfotot var en illustration och inte vilket foto som helst?
Teknikläget idag
För den som vill skapa AI-genererade illustrationer som är mindre specifika än just fotorealistiska människor rakt upp och ner, krävs ett nätverk med bredare förmågor. Nya forskningsprojekt kring AI-genererad konst pågår ständigt och varje nytt lanserat projekt tycks leverera mer imponerande resultat än det förra. Sommaren 2022 har fokuset hamnat på AI-konstgeneratorn Midjourney och OpenAI:s bildgenererande AI DALL-E 2. Vi fördjupar oss lite i Midjourney.
Midjourney använder Discord som gränssnitt och det är öppet för betatestare. För den som vill fördjupa sig i Discord lite har Digiteket skrivit en lektion om det tidigare. När du väl har registrerat dig får du ett antal gratisbilder att leka med och när du använt upp dessa erbjuder de olika former av licensavtal, som beroende på vad du betalar ger dig tillgång till bildgeneratorn i olika stor mängd och hastighet. Tekniken som ligger bakom det neurala nätverket kräver stor processorkraft så vad du betalar för är i praktiken olika stor tillgång till processorkraften.
Logga in på Discord och ge Midjourney tillgång till ditt konto.
Gå med i en newbie-kanal.
Använd sedan Discords inbyggda system med förprogrammerade kommandon och välj Midjourneys skaparprompt
/imagine
Efter denna prompt skriver du sedan vad du föreställer dig och vad du vill att konstgeneratorn ska skapa åt dig. Exempelvis
/imagine all powerful librarian in monumental library, magical, cozy, high render, golden hue
Denna prompt är en salig blandning av en idé (bibliotekarie i stort bibliotek), stämning (magical, cozy), kvalité på bild (high render) och färgskala (golden hue).
Nätverket använder sedan alla sina inlärda erfarenheter och skapar sedan en bild enligt dina önskemål. Som användare kan du se bilden växa fram i realtid med en procentsumma som visar progressionen.
Hela processen kan vara klar på under en minut.
I nästa steg kan du be Midjourney att välja en bild och generera fler bilder i den specifika stilen alternativt att öka kvalitén på den bild du väljer.
En av våra bilder i högre kvalité:
Och slutligen i högsta kvalitén:
Detaljgranskar vi bilden ser vi att den fortfarande är luddig i konturerna. Nätverket är inte en illustratör. Det har bara lärt sig skapa en uppskattning av en kombination av färger, ljusstyrkor, vinklar och former, som enligt dess erfarenheter stämmer överens med de skriftliga önskemål som du har uttryckt.
Några andra exempel för att visa på AI:ns bredd:
Revolverman i en stil som påminner om Gustav Klimt, Bild skapad av verktyget Midjourney, troligtvis ingen upphovsrätt
AI-genererad konst och juridiken
Vad ska då biblioteken göra med denna teknik? Ja, utöver att oh:a och ah:a som alla andra över hur snabbt AI-utvecklingen går, så finns det ju potentiellt en del praktiska applikationer för tekniken.
Ett konkret exempel är att det skapar möjlighet att använda illustrationer i sociala medier, och att man då på biblioteket kan vara helt säker på att man inte använder en bild eller ett foto som någon annan har upphovsrätten till – eftersom en AI alldeles nyss har skapat verket. Midjourney, som jag använder som exempel ovan, har en sympatisk Creative common-licens på verken som deras nätverk skapar. Men om man skulle vilja gå utanför den licensen så är rättsläget mycket oklart. Digiteket har i sin kurs om upphovsrätt berört frågan – till exempel konstaterades det att ett självporträtt taget av en apa inte gick att upphovsrättsskydda. Amerikansk upphovsrättslagstiftning erkänner inte upphovsrätt för verk skapade av AI. Europeisk upphovsrättslagstiftning är inte lika tydlig. I augusti 2022 finns det inget specifikt prejudikat rörande AI-genererad konst. En indikation på att EU inte ser AI-genererad konst som upphovsrättsskyddad i sin nuvarande form, är att de formuleringar som finns i lagstiftningen rör människor och individer. Det är alltså högst otroligt att ett bibliotek som använder AI-genererad konst i sina lokaler eller i sina sociala medier skulle kunna hamna i rättstvister, så som läget är nu.
“De tar våra jobb”
Varje gång maskiner gör inbrytningar på mänskligt område brukar det resultera i en ludditisk diskussion. Är det rätt att maskiner tar över människors jobb? I vår moderna tid har vi dock blivit ganska luttrade och det blir inte längre några stora ramaskrin när maskiner, robotar och smarta program tar över jobb som människor tidigare har utfört. Kanske kommer det ändå att bli en annan diskussion denna gång, eftersom konst, musik, författande och annan kultur är något som människor tänker på som unikt mänskliga aktiviteter. Tanken på att datorer ska skriva våra böcker eller måla vår konst väcker andra känslor än när vi säger att en maskin ska svetsa vår bil. Kultursektorn är också notoriskt underbetald och säkerligen kommer viss AI-generad konst att ytterligare försvåra illustratörers och konstnärers möjligheter att ta rimligt betalt.
Digiteket pratade med några illustratörer om frågan och två huvudtankar kunde utläsas:
1) Så länge en AI inte kan gå ut i världen, se sig omkring och skapa något nytt, så var de inte så oroliga. I nuläget kan ju AI:n bara emulera vad andra konstnärer redan gjort och sedan skapa variationer av det.
2) De illustratörer som själva fyller nischen att kompetent återskapa stilar som andra konstnärer utvecklat kan däremot se sina möjligheter till inkomster begränsade, på gott och ont.
En jämförelse med bokbranschen skulle vara att språkmodellerna som vi skrivit om tidigare blir så kompetenta att de kan spotta ur sig obegränsat med habilt skrivna romaner enligt någon sorts formel (brittiska småmysiga deckare, nordisk noir, high fantasy, kärleksromaner, biografier över påhittade personer etc), men att de kanske inte riktigt har förmågan än att skriva en ny Hundra år av ensamhet eller Satansverserna.
Kontentan är väl att med utvecklingen så kommer kultursektorn och de sköna konsterna på sikt rimligtvis gå i samma riktning som tillverkningsindustrin: datorer och maskiner producerar, människor innoverar.
Som en lämplig avslutning tipsas vi på Digiteket, precis innan deadline, om en artikel i Vice där ett konstverk genererat av Midjourney vunnit första pris i den digitala avdelningen av en konsttävling. Ett fall av att o-verkligheten imiterar konsten – eller kanske tvärtom.