Gå direkt till innehållet

En tjuvaktig AI

Digiteket har tidigare skrivit om hur AI används för att generera bilder. När den första häpnaden över vad tekniken kan åstadkomma lagt sig höjs allt fler juridiska och etiska frågor rörande den nya tekniken. Hur snarlik en existerande konstnärs stil kan en bild skapad av en bildgenererande AI bli innan en gräns passerats? I den här artikeln gräver Digiteket djupare i problemen med AI-genererade bilder, med fokus på just upphovsrättsfrågor.

Ha i åtanke att teknikutvecklingen kring AI går väldigt snabbt och att mycket har hänt sedan den här artikeln publicerades. Innehållet och beskrivningarna av de övergripande utmaningarna tekniken för med sig har dock bedömts fortfarande vara relevant.

Kritiken mot AI-genererad “konst” har sedan genombrottet ökat och många aktörer har aktivt tagit avstånd från de plattformar som använder tekniken. Främst riktar sig kritiken mot hur AI:n tränats på upphovsrättsskyddat material som utan tillstånd skrapats, det vill säga samlats in, från internet. Detta har nu lett till flera stämningsansökningar som lämnats in mot några av de aktörer som varit delaktiga i insamlandet av data eller som säljer AI-genererad konst. Än så länge rör det sig om en grupptalan som representerar konstnärer som anser att de fått sin upphovsrätt kränkt, och en stämning från den stora bildbyrån Getty Images som rör upphovsrättsskyddade fotosamlingar. En av de aktörer som nu stäms är Midjourney som Digiteket skrev om i artikeln En konstnärlig AI.

Vi har på Digiteket tidigare pratat om hur AI tränas med hjälp av tekniken som kallas GAN – Generative Adversarial Network. Fokus i denna artikel ligger dock inte på hur AI tränas, utan det material den tränats på. I artikeln En arg arg AI är huvudpoängen kortfattat att du blir som du umgås, eller för att använda en mer akademisk beskrivning: den miljö som AI:n tränats i har  större betydelse än arvet i form av grundläggande program, när vi pratar om artificiella intelligenser. Tränas dess språkförmåga i forum fulla av fördomar och aggressivitet kommer detta att avspeglas i den färdiga produkten. Målbilden för de som utvecklar AI-tekniken är därför att få ett så stort och brett utbildningsmaterial som möjligt för att ge GAN bästa chans att lära sig något. Det utbildningsmaterial som ligger till grund för de mest framgångsrika AI-bildprogrammen, och det sätt på vilket detta utbildningsmaterial samlats in, utgör kärnan i den konflikt och den stämning som denna artikel fokuserar på. Låt oss därför titta mer på LAION-5B.

LAION-5B

LAION-5B, eller ”Large-Scale Image Dataset for Object Recognition and Scene Understanding”, är en stor databas med nära sex miljarder bilder av olika objekt och motiv. Databasen innehåller ett brett spektrum av bilder och har skapats genom att man samlat in bilder och deras tillhörande textbeskrivningar. Dessa bild- och textpar har sedan kategoriserats in i olika kategorier såsom människor, djur, fordon osv. Detta har sedan gjort det möjligt för AI-system att tränas i att känna igen och förstå olika objekt och motiv.

LAION-5B-databasens material samlas ihop av en tysk icke-kommersiell aktör med syfte att göra bild- och textbeskrivningar tillgängliga för just utbildning av maskininlärande system. Materialet som använts är i sin tur genererat av en annan icke-kommersiell aktör som heter Common Crawl som också har syftet att tillgängliggöra gratis data för forskningsändamål. Bild- och textmaterialet som samlats in av Common Crawl har samlats in med hänvisning till den amerikanska Fair Use-lagstiftningen som tillåter undantag från upphovsrättslagstiftningen för exempelvis icke-kommersiell forskning. Kortfattat har bild- och textbeskrivningarna kunnat samlas in för att det har handlat om forskningssammanhang och man har därför inte behövt ta ställning till upphovsrätten.

För att ytterligare krångla till frågan har LAION-5B inte samlat in och lagrat bild- och textparen i en databank. Det handlar alltså inte om en stor fil med bilder. Nej, istället har LAION-5B samlat in länkarna till dessa bild- och textbeskrivningar i en indexerad databas. LAION-5B menar att det de skapat helt enkelt bara är en sökbar lista med länkar. På samma sätt som Pirate Bay en gång i tiden menade att de inte heller hade något material lagrat utan bara bistod med länkar till ställen där materialet fanns.

De som är kritiska mot LAION-5B menar att det finns flera problematiska aspekter kring hur materialet samlats in. Det största problemet är att databasen till stor del bygger på bilder som samlats in utan tillstånd från upphovspersonerna.

Ett annat problem med LAION-5B är att det bildmaterial som inhämtats i flera fall och på många olika sätt kränker integriteten hos motiven. Skräckexemplen inkluderar bilder på döda kroppar, tortyrbilder, bilder från olyckor, våldtäktsbilder, nakenbilder som publicerats utan samtycke (exempelvis hämndporr) och så vidare. Nättidningen ArsTechnica redovisar ett exempel där en användare hittade bilder på sig själv i databasen, som tagits i sjukvården. Det finns många fler.

Kritiker menar att det riktiga problemet uppstår när kommersiella aktörer sedan använder materialet för att lära maskiner att i massupplagor återskapa eller, inspirerade av, skapa bilder som obehindrat och omedelbart kopierar andra illustratörers stil, som de ju ofta lagt en livstid på att utveckla.

En jämförelse skulle kunna vara denna:

En illustratör övar sina färdigheter genom att kopiera andra artisters stil. Ett företag hyr illustratören i fråga och säger: “Skapa en illustration i van Gogh-stil för att saluföra våra nya produkter.” Detta är i sig svårt att reglera, inte förbjudet per se och kommer i slutändan att handla om en diskussion om verkshöjd. Är det ett unikt verk eller en kopia av något existerande? Om det inte är ett unikt verk som kopierats utan en stil – en speciell kombination av färg, penseldrag, uttryck –  så blir det ännu svårare.

Det som ytterligare komplicerar exemplet ovan är ju att om illustratören i fråga är en AI, så kan den troligtvis imitera alla världens dåtida och nutida illustratörer lika lätt, producera en bild i minuten och aldrig någonsin tröttna eller hamna i kreativ blockering. Den är en maskin. Om ett företag väljer mellan alternativen att betala en illustratör med en egen  stil eller att betala mycket lite för en maskin med tillgång till alla världens stilar för i praktiken ett oändligt antal verk, så kan vi nog förvänta oss att många väljer det senare.

Men hur har AI:n gått från att lära sig göra bilder i största allmänhet till att just kunna imitera specifika stilar eller till och med individuella konstnärer? Svaret heter diffusionsmodeller.

Stable Diffusion

Stable Diffusion är en diffusionsmodell som används inom denna form av generativ konst och den har utvecklats av bland annat Stability AI, som ingår som svarande i den grupptalan jag skriver om i inledningen. Genom att träna en AI med hjälp av Generative Adversarial Networks lär den sig hur en bild (vilken som helst) kan brytas ner till en kombination av former, vinklar och ljuspunkter. Den har även en stor inlärd kunskap om vilka kombinationer som kan skapa en estetiskt tilltalande bild. Allt detta representerat i form av formler och algoritmer. Med Stable Diffusion utgår AI:n från en bild bestående av slumpmässigt genererat brus. Utifrån detta brus “hittar” AI:n former och mönster i enlighet med de algoritmer den har för vad som är “korrekt” för en bild och stegvis också estetiskt tilltalande. Genom systemets förmåga att iterera en designprocess i riktning mot ett visst mönster svindlande många gånger på försvinnande kort tid kan AI “prova sig fram” till en bild. AI utgår från bruset, sorterar fram vissa specifika kombinationer av former, vinklar, färger och ljus och ser om det är en förbättring i jämförelse med det önskade resultatet. Om svaret är ja, så fortsätter den och om svaret är nej, så backar den processen och går i en annan riktning. Om och om igen. Det önskade resultatet beskrivs av användare i form av en inledande textprompt. Exempelvis: “Ett vackert fantasylandskap med inspiration från feodala Japan”. Om användaren önskar en “naturscen i vackra dämpade pasteller påminnande om Monet” så påverkar det vilka iterativa val utifrån algoritmerna som den generativa AI-”konstnären” gör. Om användaren önskar en “fotorealistisk actionscen som påminner om dataspelet Halo” så görs helt andra val.

En bildserie som visar hur en tolkningsbar bild steg för steg växer fram ur pixelbrus.

Steg för steg förvandlas det slumpmässiga bruset till en bild. By Benlisquare - Own work, CC BY-SA 4.0

Denna aspekt av generativ konst hamnar därför särskilt mycket i fokus rörande stämningen.  Om den artificiella intelligensen tränats att imitera den svenske illustratören Simon Stålenhags mycket karaktäristiska stil genom att mängder med upphovsrättsskyddade bilder på hans konst skrapats från internet – och denna AI sedan kan generera oändligt med bilder som ser ut att vara gjorda av honom – bryter detta mot upphovsrättslagstiftningen? Och vilken instans eller part är det då som står för överträdelsen? Common Crawl som skrapade internet, LAION-5B som skapade en indexerad databas av alla bilderna, Stable Diffusion som tränade AI:n att känna igen och göra matematiska algoritmer som kunde imitera en specifik stil eller Midjourney som använder denna teknik och låter användare betala för att generera bilder? Bilder som kan se ut att vara skapade av Simon Stålenhag, men som inte är det.

Är du själv inblandad?

Fram tills nu har vi pratat om detta som något som involverar andra, men självklart är vi alla i någon mån inblandade i detta. Den massindexering av internet som Common Crawl gjorde rörde ju sig genom alla webbsidor du någonsin hört talas om i sin jakt på beskrivna bilder. För den som är intresserad av vilka bilder som ingår i databasen, och kanske om det finns någon bild av eller med dig, så finns det möjlighet att undersöka detta. På sidan Have I been trained kan du söka på ett enkelt sätt. Själv hittade vi på redaktionen utan problem bilder på produkter vi varit med och tillverkat och bilder från Kungliga Biblioteket, men än så länge inga bilder på oss själva. Gå till Have I been trained och se om du bidragit till AI-utvecklingen.

Stämningen

Den grupptalan som lämnats in rörande användandet av AI-konst riktar sig mot Stability AI, Midjourney och Deviant Art. Gemensamt för dessa tre är att de har betaltjänster som låter användare skapa egna bilder med hjälp av en AI tränad på LAION-5B. Alla tre modellerna använder teknik från Stable Diffusion, utvecklat av Stability AI, som gör det möjligt att generera bild från textinstruktioner, så kallade “prompts”. Stability AI har också varit med och finansierat LAION-5B. I stämningen menar man att eftersom bilderna som använts för att träna AI-konstnärerna är tagna från bland annat upphovsrättsskyddat material så måste per definition all försäljning av konst som använder dessa modeller bryta mot upphovsrätten. Ett påstående vars logik kommer att prövas i stämningen. Bakom stämningen står en advokatbyrå från San Francisco och tre konstnärer som representerar det stora antalet konstnärer som berörts av insamlandet av bildmaterialet i LAION-5B.

Vem är det som potentiellt begått något fel?

I denna situation där inte en part agerat på egen hand utan det istället handlar om flera aktörer som byggt vidare på den kunskap som samlats in och delats öppet är det svårt att sätta fingret på en enskild aktör och beskylla den för att ha gjort fel. Stämningen kommer troligtvis att handla en del om just kopplingarna mellan de icke-kommersiella aktörerna, inblandade i att samla och indexera bild- och textbeskrivningar samt att träna AI-system på dem, och de kommersiella aktörerna som använder materialet för att framställa verktyg som de säljer tillgång till. Har forskning avsiktligt använts som förevändning för en omstridd insamling av material som hela tiden har varit avsett att få kommersiella applikationer, så kallat AI Data Laundering? Midjourney som vi ju lyft fram tidigare beskriver sig ju som ett “forskningslabb” samtidigt som de erbjuder betalmodeller för den som vill använda plattformen. Handlar det helt enkelt om företag med vinstintresse som använder rubriken “forskning” för att kringgå upphovsrätt? Det kommer att bli en utmaning för käranden att påvisa i en domstol exakt vem som bär ansvar och på vilka grunder. Ligger ansvaret för upphovsrättsbrottet hos de som samlat in materialet för att utbilda AI:n eller hos de som använder tekniken för att sälja generativ konst?

Andra aktörer

Stämningen riktar sig mot de tre utpekade företagen ovan, där Stability AI är mest i fokus som ett företag som hjälpt till att utveckla tekniken och förmågorna. Men parallellt med den utveckling som bedrivits av Stability AI har ju andra aktörer i branschen gjort liknande arbete. En aktör är Open AI, vars AI-chat, ChatGPT, vi skrivit om tidigare. Open AI har sin egen konstnärs-AI i form av DALL-E 2. Oavsett vad som händer i stämningen som beskrivs ovan så lär resultatet kunna appliceras på DALL-E 2 – både som produkt och företagsstruktur. Open AI, som säljer tjänsten DALL-E 2, är ett vinstdrivande företag medan dess moderföretag Open AI Inc är ett icke-vinstdrivande företag som strävar efter att utveckla, med deras egna ord, “människovänlig” AI-teknik. Hur eller med hjälp av vilken databas eller indexering av bilder DALL-E 2 har tränats, har heller inte delats av Open AI, vilket öppnar för spekulation kring upphovsrättsfrågor. Parallellt utvecklar Meta (Facebook) sitt program Make-A-Scene, och Google planerar enligt nyheter att lansera sitt eget program eller funktion inom kort. Så oavsett vilket slutresultat stämningsansökan mot Stability AI, Deviant Art och Midjourney får, så lär det studeras noggrant av några av de största och resursstarkaste aktörerna i världen.

En belysande jämförelse mellan konst- och musikindustrin

Hela artikeln ovan handlar om AI-teknik för att kunna massproducera uttrycket bild. Vi har också berört liknande AI-framsteg rörande text. Men självklart pågår samma arbete med konstformen musik. På samma sätt som text och bild kan musik brytas ner till ett antal detaljerade definitioner för vad som är populärt och förvandlas till algoritmer som kan imitera musikstilar och genrer. Vad är det då som gör att vi ännu inte har AI-kompositörer som slänger ur sig trettio poplåtar i timmen? När man utvecklar AI för att skapa musik har man inte skrapat Spotify eller Tidal. Man har inte på samma sätt som med bild bara samlat in allt för att noggrant indexera och träna sina system med GAN. Svaret verkar vara upphovsrätten. Eller än tydligare: musikindustrins tradition och muskler av att kunna försvara upphovsrätt.

Inom musikbranschen finns det ofta välutvecklade system för att hantera upphovsrätt, såsom organisationer som kollektivt organiserar musiker och låtskrivare och håller koll på och administrerar deras rättigheter. Dessa organisationer har avtal med företag som använder musik för kommersiella syften, såsom streamingtjänster och radiostationer, och säkerställer att musikerna och låtskrivarna får betalt för användningen av deras musik. Detta gör det svårt för företag att använda musik utan att betala för det eller erhålla tillstånd.

Inom bildbranschen finns det inte lika välutvecklade system för att hantera upphovsrätt, samtidigt som det är mycket enkelt att samla in bilder på nätet. Detta kan innebära att det är svårare att hitta och kontakta upphovsmännen för bilder, och att det är svårare att säkerställa att de får betalt för användningen av deras bilder. Detta kan i sin tur leda till att företag väljer att använda bilder utan att betala för det eller erhålla tillstånd. Det är också viktigt att notera att musikbranschen är mer reglerad än bildbranschen. Det finns tydligare definierade lagar som skyddar musikerna och låtskrivarnas rättigheter. På motsvarande sätt saknas det ofta liknande lagar och regler för konstverk och upphovsrätten till dem.

Ingenstans blir beskrivningen och jämförelserna av branscherna ovan tydligare än i nedanstående citat, som cirkulerat på nätet, där Stability AI:s underavdelning Harmonai beskriver sin musikgenererande AI Dance Diffusion och klargör att den tränats på upphovsrättsfri musik, för att undvika juridiska problem.

“Dance Diffusion is also built on datasets composed entirely of copyright-free and voluntarily provided music and audio samples. Because diffusion models are prone to memorization and overfitting, releasing a model trained on copyrighted data could potentially result in legal issues. In honoring the intellectual property of artists while also complying to the best of their ability with the often strict copyright standards of the music industry, keeping any kind of copyrighted material out of training data was a must.”

Att köra över artisters upphovsrätt är följaktligen bara OK med Stable Diffusion som arbetar med bild, där konsekvenserna för att göra det inte är stora.

Framtiden

Enligt de flesta bedömare kan vi förvänta oss att se en strid ström av stämningar rörande upphovsrättsfrågor och AI de kommande åren. Här finns, som vi visat i artikeln, en stor otydlighet och det är alldeles uppenbart att enskilda artister drabbas i nuläget. Vad slutresultatet blir när röken har lagt sig är svårt att sia om. De konstnärer som fått sin konst utnyttjad för att träna de AI-system vars tjänster nu säljs i praktiska applikationer, bör nog inte räkna med att få någon större ersättning, men kanske kan vi hoppas på en tydligare lagstiftning och en ökad respekt för enskilda konstnärer i framtiden.

Kommentarer

Hjälpte detta dig?

Digiteket-redaktionen vill gärna veta mer om hur du har använt artikeln.


Fält markerade med * är obligatoriska. Redaktionen granskar kommentarer innan de publiceras. Din e-post kommer inte publiceras.