Sluta slit med dina undertexter: uppdaterade Texta mig! till din räddning
Att transkribera och skapa undertexter är något av det tråkigaste man kan göra, men nödvändigt för att alla ska kunna ta del av videos innehåll. Det är också väldigt, väldigt tidskrävande. Det finns dock olika tekniska lösningar som kan underlätta, och med ny teknik baserad på AI är dessa idag så mycket bättre än förr. En av dessa är den välkända tjänsten Texta mig! som nu fått ett stort tekniskt ansiktslyft och som kan komma att underlätta ditt arbete rejält!
Digiteket har skrivit om tjänsten Texta mig! ett flertal gånger tidigare.Texta mig! är en webbaserad tjänst som skapar en undertext till dig som du sedan kan ladda upp till Youtube, eller vilken videotjänst du nu använder.
Nu har tjänsten uppdaterats med en ny taligenkänningsmodell som levererar långt bättre resultat än den förra versionen. Undertextningen är mer korrekt än innan, vilket sparar mycket tid. Därefter är det bara att dubbelkolla/läsa och lyssna igenom allt en sista gång och rätta till det som behövs. Texta mig! är skapad av Peter Krantz som berättar mer om den nya motorn bakom den förbättrade textningen:
– Utvecklingen för AI-modeller inom taligenkänning har varit snabb efter att OpenAI släppte sin modell –Whisper som open source. Andra utvecklare har byggt flera varianter som passar för olika slags hårdvara eller finjusterat modellerna för andra språk. Jag har nu implementerat en av dessa på textamig.se och upplever att textningskvaliteten blivit mycket bättre. Dessutom förbehandlar jag ljudspåret för att filtrera bort tysta passager som tidigare kunde skapa hallucinationer. Hallucinationer är en av utmaningarna med denna typ av AI-modeller, vilket kan resultera i språkligt korrekta passager som inte förekommer i underlaget.
Om man jämför resultatet från den gamla taligenkänningstjänsten med den nya så är det en markant förbättring. Se skillnaden mellan två olika exempel nedan, tagen från en video av Joakim Jardenberg som berättar om den, då nya, videotjänsten Jitsi.
Äldre automattextning
00:00:00,512 –> 00:00:05,632
Eden Lilla Spöket Ikväll så blir det en del uppståndelse runt den tjänst som jag kastar in
00:00:06,144 –> 00:00:12,288
Som heter gips Irene videokonferens tjänst Jag tänkte vi kunde bara titta in i den alltihopa är väldigt enkelt och behöver brand
00:00:14,080 –> 00:00:20,224
Du ska inte ladda ner någonting till din webbläsare och så kör du det till telefonen så behöver du ladda ner en program
00:00:20,480 –> 00:00:21,248
Var är telefonen
00:00:21,504 –> 00:00:25,088
Annonser på Browser ingen programvara allting sker i webbläsare
Nyare automattextning
00:00:00,240 –> 00:00:07,240
I det lilla stöket i kväll så blev det en del uppståndelser runt en tjänst som jag kastade in som heter Jitsi.
00:00:07,240 –> 00:00:11,240
Det är en videokonferenstjänst. Jag tänkte att vi kunde bara titta in i den. Alltihopa är väldigt enkelt.
00:00:11,240 –> 00:00:17,240
Du behöver bara en URL. Du ska inte ladda ner någonting till din webbläsare.
00:00:17,240 –> 00:00:21,240
Kör du det i telefonen så behöver du ladda ner en programvara i telefonen.
00:00:21,240 –> 00:00:25,240
Annars är det bara webbrowser, ingen programvara. Allting sker i webbläsaren.
Det är en markant kvalitetsförbättring, och även om man behöver göra viss handpåläggning i efterhand för att justera sådant som engelska begrepp, dialektala uttryck, namn och dylikt, så är det ett verktyg som kan spara mycket tid för den som skapar film i offentlig sektor och behöver leva upp till tillgänglighetslagstiftningens krav på undertexter.
På tal om lagstiftning så har tjänsten en annan stor förbättring som underlättar för den som skapar film inom offentlig sektor. I och med de domslut som kallas för Schrems 2 är det nu väldigt oklart men troligtvis inte tillåtet att överföra personuppgifter till tredje land, till exempel USA. Att använda en textningsmotor som till exempel baseras på Googles textningsmotor överför ju då personuppgifter i form av namn till dem vilket bör undvikas. Den nya varianten av Texta mig! har löst denna problematik. Peter Krantz berättar:
– Tidigare låg serverdriften hos ett tyskt bolag och Texta mig! använde Googles taligenkänningstjänst. Nu finns serverdriften i Sverige och taligenkänningen sker helt lokalt på servern. Många användare av tjänsten jobbar i offentlig sektor och jag har fått flera frågor om hur de kan undvika att skicka data till tredje land.
Så använder du Texta mig!
1. Gå till Texta mig!.
2. Ange länk till ditt videoklipp. Det behöver vara publikt tillgänglig.
3. Ange din mejladress.
4. Se till att “Tidskodad SRT” är förvalt.
5. Tryck på Texta.
6. Håll koll på din inbox dit din sprillans nya textfil skickas.
7. Redigera den i textprogram, videotjänst eller dedikerat textningsprogram som Subtitle Edit.
Peter Krantz har stor erfarenhet av webbtillgänglighetsfrågor och har bland annat varit med om att ta fram de svenska webbriktlinjerna. Han berättar mer om bakgrunden till varför han skapade tjänsten:
– När tillgänglighetsdirektivet kom var det uppenbart att många skulle få en utmaning med att undertexta videomaterial. Jag var orolig för att många istället skulle undvika att publicera materialet alls och ville göra något för att sänka tröskeln för att skapa tidkodade undertexter.
Det finns utmaningar med att arbeta med taligenkänning med ett så litet språk som svenska, AI-modeller kräver stora mängder träningsdata för att bli bättre. Digiteket har tidigare skrivit om KB:s arbete med detta. Peter berättar om sina önskningar inom fältet:
– Jag skulle vilja se mer arbete i att ordna bra öppna talträningsdata för både svenska och våra minoritetsspråk. När stora bolag i USA tar fram nya lösningar för taligenkänning är det inte svenska som ligger överst på listan. Hade jag fått önska skulle SVT och andra tv-bolag dela med sig av sina undertextade arkiv till KB och andra som skulle kunna bygga öppna modeller som många fler kan använda. Under tiden försöker jag bidra till Mozillas projekt Common Voice, där de försöker bygga upp fria talträningsdata för bland annat svenska. Det vore kul om fler ville bidra med sin röst där – särskilt de som pratar svenska med någon dialekt.
Instruktioner för textning
Detta är riktlinjerna kring textning som Digiteket brukar rekommendera, mer information finns i denna kurs.
– Max 2 rader text.
– Max 42 tecken per rad.
– En fullskriven rad bör ligga i minst 3 sekunder, ett block på två fullskrivna rader bör ligga i 5–6 sekunder. – Rekommenderad minimilängd för korta block är 1,5–2 sekunder.
– Komprimera vad som sägs och välj ut det viktiga.
– Utfyllnadsord ska tas bort. Att undertexta är väsensskilt från transkribering, och omskrivning och förenkling krävs därmed.
– Dela upp texter med fortsättningsstreck. Använd ett minustecken för att dela upp texter som inte får plats i ett textblock.
– Försök i görligaste mån hålla ihop grammatiska och semantiska enheter.
Talstreck används i början av varje rad när två personer pratar i samma textblock.
Puffbild: Typsnitt från Draughtsman’s Alphabets av Hermann Esser (1845–1908), PD