Deepfakes

Deepfakes. Bara namnet frammanar en känsla av skumraskbeteende som du hittar på internets sjaskigaste bakgårdar. Något som handlar om bluffmakeri på högsta nivå med syfte att lura användare. Kopplingen till det av Trump populariserade uttrycket “fake news” ligger inte långt borta.
I allt väsentligt är detta också en korrekt känsla. Deepfakes handlar i mångt och mycket om att lura användare och uttrycket härrör också från just den sortens undertråd på det stora internetforumet Reddit som kan beskrivas med ordet sjaskig. Tekniken och tankarna bakom är dock äldre och användningsområdena går långt bortom de snaskigheter som kokades ihop i just den ovan nämnda undertråden. I den här artikeln tittar vi på vad deepfakes är, undersöker tekniken bakom, tittar lite på vad vi kan göra för att inte låta oss luras och funderar på vilket sätt tekniken kan ändra samhället vi lever i.

Tom Cruise placerad i rollen som Iron Man med hjälp av deepfake-teknik. Ansiktet tillhörande den ursprungliga skådespelaren Robert Downey Jr. har helt enkelt bytts ut på teknisk väg.

Definition

Vad är då deepfakes? Ja, lite förenklat handlar det om att med hjälp av teknik få en bild eller video av en person eller en miljö (eller satellitbild) att ändras så att den ser ut som någon annan. Bildmanipulationer är ju på intet sätt något nytt men skillnaden är nu att man med hjälp av det man kallar AI, i detta fall  maskininlärning och kraftfulla datorer, kan ändra även video på ett sådant sätt att personen eller personerna ser ut att vara någon annan än de ursprungliga personerna som filmades. Tekniken har många potentiella användningsområden.

Ursprung

Själva termen deepfakes är dock ny och har som många termer och trender nuförtiden sitt ursprung i diskussionsforumet Reddit 2017 där en användare med smeknamnet “deepfakes” huserade i en undertråd med namnet r/deepfakes där den huvudsakliga sysselsättningen handlade om att med hjälp av tekniken byta huvud och ansikten för att framställa pornografiska filmer med till exempel kända skådespelare. Att deepfakes används för att tillverka olika former av pornografi är fortfarande vanligt och något vi återkommer till i artikeln. I förlängningen kan användarens namn brytas ner i sina beståndsdelar och på så sätt ge ytterligare ledtrådar till vad tekniken handlar om. “Deep” är taget från begreppet AI-begreppet deep learning. Detta är i sin tur kopplat till den teknik som används för att manipulera videon. “Fake” syftar så klart till något som är falskt och manipulerat. Så falsk video genom maskininlärning helt enkelt.

Användningsexempel

Deepfake-tekniken har som sagt många användningsområden, allt från enkel underhållning till potentiellt subversivt manipulerande av opinionen. Vi listar några tänkbara här nedanför:

Underhållning: appar

Det allra vanligaste exemplet på deepfakes och kanske det sätt som de flesta vanliga människor kommit i kontakt med någon del av tekniken är genom någon av de mycket enkla och rudimentära ansiktsbytar-appar som finns i omlopp. Oftast är dessa appar mycket enkla och har inte förmågan att lura någon på riktigt. Tekniken lånar de dock i förenklad form från maskininlärningen och det finns all anledning att tror att dessa appar liksom tekniken i helhet kommer att bli mer och mer avancerade och övertygande med tiden. I nedanstående exemplet visar vi hur tekniken fungerar även bortom foton – i detta fallet på en känd målning. För tekniken bakom spelar det egentligen ingen roll.

Underhållning: film

I exempel från Hollywood handlar det till exempel om att filmsekvenser till filmen Furious 7 föreställande stjärnan Paul Walker som dog under inspelningen, färdigställdes med hjälp av filmade sekvenser av hans bröder där Walkers ansikte senare ersatte deras. Eller sekvenser ur Stjärnornas Krig-uppföljaren Rogue One där man med hjälp av deepfake-teknik föryngrade stjärnan Carrie Fisher som spelade prinsessan Leia och helt återupplivade skådespelaren Peter Cushing (som dött mer än tjugo år tidigare) i rollen som Grand Moff Tarkin från ursprungliga Stjärnornas krig. I förlängningen spekuleras det i att man med tekniken helt kommer att kunna spela in filmer med hjälp av digitala kopior av döda skådespelare. Vad sägs till exempel om filmikonen James Dean i nya roller, eller kanske en ny film med Marilyn Monroe?

Pornografi och olika former av kränkningar

Pornografi och sexindustrin har historiskt drivit mycket teknikutveckling och i viss mån är detta sant även för deepfake-tekniken. En undersökning från deepfakeslab i Nederländerna som publicerades 2019 uppskattar att så mycket som 96% av alla deepfake-videos som är tillgängliga online är pornografiska till sin natur och utgör kränkningar mot de människor som mot sin vilja fått sina ansikten digitalt insatta för att ersätta skådisarna i pornografiska filmer.  I de flesta fall handlar det om kändisar (skådespelare, musiker et cetera) men det finns också exempel på helt vanlig människor som blivit utsatta. I nästan samtliga fall är det föga överraskande kvinnor som drabbas.

Fake news och påverkanskampanjer

En återkommande oro som lyfts är risken för att deepfake-tekniken kan användas för att påverka opinionen genom att falska videos sprids av makthavare. Oron är att någon exempelvis publicerar en deepfake där exempelvis Vladimir Putin avslöjar något som skulle kunna ändra opinionen i Ryssland eller Europa eller att en skandal “avslöjas” där en politiker gör något olämpligt moraliskt. Oron för detta har genererat många varnande artiklar och videos, likt denna i the Guardian. Den som kanske fått störst genomslag är deepfakesvideon av Barack Obama gjord av filmmakaren Jordan Peele tillsammans med Buzzfeed, med syftet att just visa på problemen. Den faktiska mängden deepfakes som bevisligen gjorts för att vilseleda befolkningen och som faktiskt lyckats med sitt syfte är dock än så länge mycket få. Det är ett gränsfall att säga att det faktiskt existerar några. I april 2020 lade belgiska delen av klimatnätverket Extinction Rebellion ut en deepfake på premiärminister Shophie Wilmès som kopplade samman covid19 med klimatförändringar. Videon lurade tillräckligt många för att få reaktioner på sociala medier. Det kanske mest uppmärksammade fallet hittills rörande misstankar om att Gabons president Ali Bongos framträdande efter lång tystnad var en deepfake, satte fingret på ett annat och kanske större problem rörande detta, som här belyses av Technology reviews artikel: att själva insikten om att det går att göra deepfakes av denna sort kommer att få människor att sluta tro på saker som faktiskt är sanna. Se Washingtons Post videoreportage för ytterligare fördjupning.

Deepfakes och AI kontra maskininlärning

När vi pratar om deepfakes hör vi ofta begreppet AI. Exempelvis skrivs det “Deepfakes möjliggörs av  AI” eller “Det krävs avancerad AI för att skapa deepfakes”. I detta läge är det återigen dags att göra en kort utvidgning kring vad som menas när vi säger AI. Ordet artificiell intelligens brukar frammana bilden av datorer eller robotar som helt på egen hand kan “tänka”, lösa problem och på olika sätt anpassa sig efter förutsättningar. Exempel från underhållning innefattar HAL2000 från filmen 2001 och allehanda mordiska robotar – från Roy Batty i Bladerunner till David från Stephen Spielbergs film AI baserad på Brian Aldiss novell Supertoys Last All Summer Long. Det är dock viktigt att hålla i tankarna att denna sorts AI inte existerar än och att det är lång tid kvar innan vi ens är i närheten av en sådan tänkande maskin. Den teknik som används för att göra deepfakes – djupinlärning – är dock en underavdelning inom maskininlärning som i sin tur är en del av det som brukar kallas AI-forskning, därav anledningen till de braskande rubrikerna. För dig som vill fördjupa dig ytterligare i vad AI är och inte är rekommenderar vi Digitekets artikel En kort introduktion till AI på bibliotek. 

Djupinlärning

Tanken med djupinlärning med hjälp av neurala nätverk är att med hjälp av datorers stora processorkraft försöka imitera hur den mänskliga hjärnan fungerar. Tekniken fungerar med enklaste tänkbara förklaringen på följande sätt:

Vi människor känner på ett ögonblick igen ett ansikte. Inte bara det, vi kan särskilja ett ansikte från ett annat på ett ögonblick och utan problem plocka ut ansikten från dem vi känner ur en stor mängd ganska lika ansikten. För oss är det lätt. Att lära en maskin att göra samma sak är en helt annan utmaning. Med neurala nätverk bryter man ner uppgiften i en stor mängd understeg och låter sedan datorn träna sig själv utifrån givna premisser och instruktioner.

Exempelvis består ansikten av vissa otroligt rudimentära grunddrag:

  • En viss övergripande form, inramning av hår och öron och hals.
  • Formen i sig är indelad i ett antal särskiljande drag: ögon, näsa, mun, kinder.
  • Dessa former är i sig egentligen bara geometriska figurer och vinklar i förhållande till varandra.
  • Et cetera.

Med hjälp av det neurala nätverkets processorkraft kan du bryta ner utmaningen på pixelnivå där varje pixel fyller samma funktion som en hjärnas neuroner. Dessa pixlar/neuroner kan i olika steg av processen ges binärt enkla uppgifter. Vi ger nätverket ett ingångsvärde i form av en bild och i första lagret av undersökningen kanske pixlarna bara har som uppgift att indikera ljusstyrka, därifrån rapporterar de ett värde till nästa lager som letar efter vissa vinklar och rapporterar vidare till ett nästa lager som tittar på större vinklar som i sin tur går till ett lager som tittar efter vissa former, och så vidare. Det kan finnas en mycket stor mängd lager som steg för steg närmar sig det vi som människor känner igen om ett mänskligt ansikte och i varje lager skickar varje pixel bara vidare ett värde som på något sätt indikerar oddsen att de har identifierat det de ska. I varje steg läses dessa nya ingångsvärden av och de pixlar som levererat höga värden för igenkänning får större tyngd när uppgiften går vidare i nästa lager. På vägen förvandlas det som bara är en ljus eller en mörk pixel till vinklar, former och sedan till ansiktsdrag. I sista lagret spottar det neurala nätverket ut en sista bedömning. Är värdet högt så drar nätverket slutsatsen att det faktiskt är ett ansikte på bilden. Är värdet lågt så säger nätverket tvärtom att det inte är ett ansikte. Detta resultat jämförs sedan med ett facit som följer med bilden. Var det faktiskt ett ansikte? Ja/nej? Nätverkets prestation matas sedan tillbaka genom det neurala nätverket baklänges för att justera premisserna för nästa bild. Om nätverket gjorde rätt bedömning ges de bedömningsgrunder (den bias eller vikt som varje pixel/neuron getts) som använts större tyngd och ökar chansen att de därför gör rätt bedömning även nästa gång.. Om nätverket tvärtom gjorde fel justeras de olika bedömningsvärdena på de olika lagren. Det kan handla om otroligt små justeringar från gång till gång men fördelen är ju att nätverket på detta sätt kan mata sig igenom en enorm mängd bilder om och om igen tills bedömningarna på värdena i varje lager gör att det gissar rätt om och om igen. På detta sätt imiterar det neurala nätverket vår egen hjärna. Koppplingar mellan neuroner kallas synapser och dessa kopplingar hjälper oss att “tänka” effektivt. Genom att öva det neurala nätverket om och om och om igen uppfostrar vi maskinen att skapa de synapser i form av korrekta viktningar och bias som behövs för att nå resultat.  Vi pratar om hundratals, tusentals, miljontals bilder som matas igenom systemet för att lära nätverket att känna igen ansikten av olika kön, etnicitet och ålder, men också i färg, svartvitt, med låg upplösning, med hög upplösning, dominerande i bilden eller bara som en skymt i bakgrunden.

En förenklad skiss över ett neuralt nätverk. Cirklarna motsvarar tusentals, ja kanske miljontals, noder som alla gör sin lilla del på sin nivå. Analysen sker genom att det neurala nätverket steg för steg, från ett osynligt lager till nästa, försöker fylla sin uppgift. Resultatet av arbetet resulterar i ett utgångsvärde som jämförs med ett facit och lärdomarna matas sedan tillbaka genom hela nätverket baklänges för att förbättra resultatet vid nästa försök.

Datorns processorkraft är nyckeln och med hjälp av små förändringar utifrån facit och erfarenhet kan nätverket bli effektivare och effektivare. Som vanligt i sådana här sammanhang blir slutresultatet nätverk som på otroligt kort tid kan göra bedömningar snabbare och med högre tillförlitlighet än vad människor kan.

Vad är då nyttan med detta? Ja har man lärt maskiner att känna igen ansikten är steget givetvis inte långt till att lära det skilja ett ansikte från ett annat och med samma metoder träna nätverket att identifiera vem som helst utifrån en databas med förlagor. Världens säkerhetstjänster ser ju absolut fördelar med att kunna identifiera vem som helst utifrån en kamerabild. För att kunna göra detta krävs det dock att det finns bilder på riktiga ansikten  att träna nätverket med. Lyckligtvis får de ju detta genom att vi människor i stor utsträckning delar med oss av dessa träningsbilder i sociala medier och att alla dessa bilder finns tillgängliga för dessa säkerhetstjänster. Det finns ju en anledning till att lagstiftning i stil med Schrems 2 ställer till problem för bibliotek som vill använda sociala medier, Google analytics eller annat, eftersom dessa system skickar informationen via USA där den snappas upp och används för just denna sorts övervakning. Se exempel på hur djupt detta samarbete går i wikipedias översikt. Ett mer livsbefrämjande arbetsområde är till exempel att låta träna det neurala nätverket att analysera röntgenbilder för att hitta avvikelser som läkare kanske inte kan uppfatta. 

Sammanfattningsvis är djupinlärning med neurala nätverk en del av maskininlärning som i sin tur är en underavdelning till det vi kallar AI. Datorerna “tänker” inte själva men de kan med hjälp av självlärande system som tillåts träna med återkopplingsloopar – det vill säga att nätverket efter varje försök kan lära sig av sina misstag och steg för steg justera för bättre resultat – bli otroligt effektiva i att på egen hand justera sin egen förmåga att lösa uppgiften.

Från djupinlärning till deepfakes

Hur tar vi då kunskapen från djupinlärning till deepfakes? Ja, har vi väl tränat maskiner till att enormt effektiv kunna identifiera a) ansikten och kroppar, b) individers specifika utseenden c) människors rörelsemönster i allmänhet d) individers specifika rörelsemönster, så är ju inte steget lång till att koppla ihop det med annan teknik – i detta fall program för att göra hyperrealistisk datagrafik och animationer. I sin enklaste form kan man säga att vi skapar ett program för att identifiera en person i en video och sedan måla över bilden av en annan persons ansikte och kropp och anpassa detta till rörelsemönster. Självklart kräver detta en massa datorkraft men detta är ju också något vi som samhällen har närmast oändlig tillgång till.

I sin enklaste form får vi ett program eller filter av en sådan form som finns i din telefon eller i din videokonferenstjänst. Med en knapptryckning får du hundöron, en löjlig hatt eller kanske byter programmet till och med ansikte på de personer som samtidigt syns i bild.

Digiteketredaktör Christoffer, här med hjälp av en enkel deepfakes-app försedd med kattöron och morrhår.

Dessa program och filter lurar givetvis ingen men det beror ju bara på att programmet inte är tillräckligt sofistikerat och att maskinen som gör jobbet inte har tillräcklig processorkraft för att göra jobbet ordentligt. Tekniken finns och den förfinas ständigt. En av branschens pionjärer, Hao Li gjorde 2019  den uppmärksammade bedömningen att deepfakes inom ett år skulle vara omöjliga att skilja från verklig film.

Tidigare har en viss förhoppning stått till att ljudet till en deepfake-video skulle vara svårt att förfalska. På samma sätt som våra ögon är exceptionellt duktiga på att skilja en bild från en annan är våra öron känsliga instrument som kan uppfatta den minsta avvikelse i röstläge, intonation, rytm och så vidare. Olyckligtvis (i detta sammanhang) så har samma maskininlärning med neurala nätverk tränat maskiner att också syntetisera röster, så kallad voice cloning, med samma goda resultat

Att avslöja deepfakes

Det är ganska vanligt att se sidor som förespråkar vaksamhet och källkritiska principer publicera tips på hur du som användare kan känna igen en deepfake och lära dig att inte låta dig luras. I takt med teknikutvecklingen blir allt fler av dessa tips obrukbara och experter inom fältet varnar för att tekniska lösningar och listor inte kommer att räcka. Vi får helt enkelt acceptera att vi är på väg in i en era då vi inte med blotta ögat och örat kommer att kunna identifiera något som äkta eller falskt. Vi måste helt enkelt koncentrera oss på att istället bedöma budskapet i förhållande till sammanhanget. Sa Stadsministern verkligen det vi såg på videon? Ja, vi kan inte avgöra det genom att analysera videofilmen tekniskt så vi måste helt enkelt undersöka budskapet utifrån kontexten. Det är absolut en utmanande period vi rör oss in i.

I en tid av relativa fakta

I detta läge är det lätt att känna en viss panik men det kan också vara god tid att ta ett steg tillbaka. Är det de facto så att en framtida oförmåga att bedöma en videos äkthet kommer att ta oss in i en tid av relativa fakta? Nej, den sorgliga sanningen är väl att vi sedan en tid redan är där. Det krävs ju bevisligen ingen som helst avancerad teknik för att få människor att tro på saker som bevisligen är osanna. Vi ser hela tiden bevis på att människor är beredda att tro på saker som helt och hållet gått emot fakta som de nyss tagit del av. När Trump svors in som president var publiken vid hans ceremoni faktiskt och objektivt färre till antalet än den publik som deltog vid samma ceremoni fyra år tidigare då Obama svors in. Detta objektiva faktum, som man lätt kunde se med sina egna ögon, hindrade dock inte många anhängare av president Trump att tro att han hade den största publiken någonsin. Människor väljer sin sanning och faran med deepfakes är snarare att det i högre utsträckning kommer att ge människor en ursäkt att tro på saker de redan bestämt sig för.