Artificiell intelligens möter KB:s stora samlingar
KB-Labb är Kungliga Bibliotekets labb för att tillgängliggöra bibliotekets data för forskare. De arbetar också med metodutveckling av AI vilket vi såklart ville veta mer om och vi tog därför ett samtal med Love Börjesson som förestår labbet.
Ha i åtanke att teknikutvecklingen kring AI går väldigt snabbt och att mycket har hänt sedan den här artikeln publicerades. Innehållet och beskrivningarna av de övergripande utmaningarna tekniken för med sig har dock bedömts fortfarande vara relevant.
Hur kan man kort beskriva KB-Labbs verksamhet?
Labbet har funnits sen maj 2019 och står i princip på två olika ben:
Det ena benet är att det är en infrastruktur för forskning med utgångspunkt i samlingarna. Det viktiga med det är att innan har man kommit åt KB:s digitaliserade samlingar objekt för objekt, men inte i kvantitativ strukturerad form. Detta är labbets första uppgift, att erbjuda åtkomst till hela digitaliserade samlingarna i labbmiljö så man kan laborera och manipulera data.
Arbetet är väldigt textorienterat och vi har byggt vad som kallas för språkmodeller som baseras på Googles modeller som kallas för BERT.
En språkförståelsemodell är en AI som tränats på stora mängder text för att få en flexibel och djup språkförståelse. KB:s BERT har lärt sig mekanismerna i svenska språket och kan analysera och strukturera text i stora underlag.
Det andra benet är att vi tar det som vi lär oss med forskarna och försöker använda den nyvunna kunskapen för biblioteket internt. Till exempel metoder för berikning av samlingarna och rationalisering av datahantering.
Vad är egentligen språkförståelsemodeller som ni jobbar med?
De första språkförståelsemodellerna kom ut 2018 från Google och kom på engelska, kinesiska och en flerspråkig modell. Språkförståelsemodeller är väldigt stora artificiella neurala nätverk som tränas för att uppnå generell språkförståelse. Med generell menas att den inte är för en specifik uppgift, den är ungefär som min och din språkförståelse. Det som var nytt med dessa modellerna är att de har en språkförståelsenivå som är på nästan lika hög nivå som en människa. Det finns flera olika modeller där BERT är en av många..
Ett artificiellt neuralt nätverk är en maskininlärningsmodell vagt inspirerat av hur den biologiska hjärnans neuroner jobbar.
Den generella språkförståelsen kan sen överföras till specifika uppgifter. Att få fram den generella språkförståelsen är väldigt beräkningstungt, och kräver högkvalitativ data i stor mängd. Det är få som kan göra det och särskilt i ett litet språkområde som det svenska. KB tillhör de få, kanske den enda som har tillräckligt mycket bra data.
Specifika språkförståelsen är mycket lättare. De generella modellerna som vi tar fram kan man använda för olika specifika uppgifter. Detta betyder att man kan använda dem till en mängd olika forskningsfrågor: Man kan spåra en författares stilistiska inflytande, man kan klassificera dokument, man kan identifiera entiteter – det vill säga personer, platser, organisationer, tidpunkter et cetera. Man kan ha en fråga svar-applikation. Det finns mängder med användningsområde. Den modellen som kallas för Named-entity Recognition, kan till exempel fintränas och läras hitta entiteter som till exempel patientnamn i medicinsk dokumentation som sen anonymiseras.
Named-entity Recognition är en datainsamlingsuppgift som söker hitta, klassificera och kategorisera namn, objekt, platser och dylikt i ostrukturerade texter.
Den generella språkförståelsen är lite som din och min språkförståelse men om man släpper ner den generella språkförståelsen i något område där vi inte är så hemma, som garntovning, så kan vi inte orden men vi är inte helt lost, kommer det ett substantiv känner vi igen det, kommer det ett verb känner vi igen det. Finjusteringen som krävs när man kommer till ett nytt kunskapsammanhang för att förstå tar inte lika lång tid som att lära sig grundspråket. Precis så är det för modellerna, man har en generell språkförståelse som är väldigt stark och sen fintränar man den för olika uppgifter.
Äger KB beräkningskraften (det vill säga datorerna som gör jobbet)?
Beräkningskraften finns på KB. Vi försöker bygga upp mer och så, men det kostar ju ganska mycket. Det är många små beräkningar som körs parallellt, så kallad parallellisering, och för detta använder man grafiska processorer.
Grafiska processorer är i princip grafikkort av den modell som gamers använder, fast ännu lite kraftfullare.
Det finns en del data som är okomplicerad och också öppet tillgängligt som till exempel Statens Offentliga Utredningar. Beräkningar på den typen av data hade man kunnat köra i molnet i beräkningsnätverk och inte behöva göra här på plats.
Beräkningsnätverk är i nätverk sammankopplade datorer som arbetar tillsammans med en uppgift.
Kan du kort berätta om de forskningsprojekt som ni är inblandade i?
Forskningsprojekten tar typiskt sett väldigt lång tid: mellan 3 och 6 år kan man säga. Vi har två stora projekt på labbet just nu: Välfärdsstaten analyserad på Umeå universitet där Pelle Snickars är forskningsledare. De tittar på framväxten av välfärdsstaten och urbaniseringen av Sverige hur en framställs i olika samlingar, dagstidningar, Bonniers Litterära Magasin et cetera. Det är ett komplext projekt, det innehåller en massa digitalisering vilket är jättebra, men det är många bollar. De använder lite olika modeller och mycket den som kallas för Topic modeling som är vanlig hos samhällsvetare och humanister. Man försöker ta reda på vilka ämne som är representerade i olika dokument.
Topic modelling/ämnesmodellering är en typ av statistisk modell för att upptäcka abstrakta ”ämnen” som förekommer i en samling dokument genom att titta efter semantiska strukturer.
Ett annat stort projekt är det som kallas för Mining for Meaning: Den offentliga migrationsdiskursens dynamik på Linköpings universitet som tittar på diskursen kring invandring i Sverige från 1945 till igår. Det som är speciellt med denna är att det är väldigt väldigt stora modeller vilket gör det lite komplicerat.
Sen har vi haft mindre projekt. Till exempel en som handlar om hur konkurrens mellan mediehus driver polarisering av debatten.
I praktiken funkar det som så att forskarna undrar vilka ämne som finns representerade här i dessa en miljard textobjekt. Man tänker att ämnet styr vilka ord som hamnar i dokumentet och detta listar man ut med Topic modeling-modellen.
Vi ser att våra språkförståelsemodeller används mer inom industrin än akademin. Det finns en tröghet i akademin som visserligen behöver vara där, men…
Vinnova har produktionssatt en modell som bygger på vår BERT för att klassificera inkommande ansökningar. De har tagit vår modell och så har den fått träna på historiska ansökningar, vilka klasser de har och så kan den klassificera nya inkommande ansökningar. De når en träffsäkerhet på 98,5 % vilket är högre än vad människor skulle nå.
Finns alla era modeller fritt tillgängliga?
Alla våra modeller släpper vi. Sen kan det komma modeller framöver som kan behöva hanteras med viss försiktighet, till exempel om de blir väldigt bra på att producera svensk tidningstext, så får man tänka till två gånger.
Vad gäller data jobbar vi med tillgänglighetsfrågorna hela tiden men det finns två problem: GDPR och upphovsrätten. Även öppen data kan innehålla integritetsproblematik. Det finns intervjuer i svenska dagspress som jag inte tror man skulle göra idag där författare pratar om sina barn på ganska utlämnande sätt.
Jag ser inte att det kommer ligga helt öppet i närtid. Däremot kommer vi med största säkerhet få till olika typer av certifierad fjärraccess. Data kommer inte lämna KB, men man kan göra saker med den.
Finns det några implikationer för folkbibliotek av ert arbete?
Allt som vi gör, till exempel entitetsmodellerna, skulle kunna sättas i arbete på ett folkbibliotek också i ett gränssnitt: När man läser i en tidningsdatabas på ett folkbibliotek skulle man kunna ha ett gränssnitt där man ser alla entiteter som länkas till Wikipedia eller Libris.
Det vore jättehäftigt om de gränssnitt vi bygger också används på folkbiblioteken, KB vänder sig dock främst till forskningsbiblioteken.
Hur ser verksamheten ut vad gäller ljud och bild?
Vad gäller generell kapacitet som vi vill ta fram gällande allt så kan allt göras till så kallade vektorer och då jämföras och kategoriseras. Vi har kommit långt vad gäller bild. Där är tekniken mogen. Vi har ett jättestort forskningsprojekt på KB i labbets infrastruktur som KTH driver som handlar om Tal till text. Förutom att få fram text ur tal så handlar det också om olika egenskaper hos tal. Är det här till exempel upprörda personer som pratar? Det här kommer man så småningom kunna använda för språkförståelsee. Ur detta tror vi det kommer komma väldigt bra tal-till-text på svenska som klarar svåra saker som ironi och så vidare.
En vektor är en matematisk objekt. Vektorisering är ett vanligt sätt att jobba med data i maskininlärning.
Vad gäller rörlig bild så har vi ett projekt som handlar om Anslagstavlan, det enda tecknade som gick när man var liten. Det finns inga stora analytiska hopp mellan bild och video utan det är bara det att datamängden blir så mycket större.