Leder for kunstig intelligens i iTromsø, Lars Adrian Giske til venstre. Logo til boten Flabb til høyre.
Leder for kunstig intelligens i iTromsø, Lars Adrian Giske til venstre. Flabb til høyre.

Avisa lagde eget verktøy for å forstå nordnorsk banning: – Har jo et ganske rikt språk

Trengte noe som forsto nordnorsk dialekt, da oppsto «Flabb». iTromsøs KI-leder oppfordrer bransjen til å samarbeide tettere om transkriberingsverktøy.

Publisert

iTromsø oppdaget i fjor et problem med de transkriberingsverktøyene som fantes. Blant annet hadde Jojo som var bygget på Whispers språkmodell et problem – den forsto ikke dialekt.

– Den modellen var fryktelig dårlig på å forstå nordnorsk. Det var mer feil i outputet enn vi kunne leve med.

Det sier Lars Adrian Giske. Han er leder for KI i iTromsø.

For eksempel stedsnavn var noe som ofte ble feil.

– Kaldslet blir plutselig kaldsvett. Det tar seg dårlig ut på trykk. 

Han sier det var spesielt ord som ligner litt på andre ord i bokmål. Stedsnavn og dialektuttrykk ble ofte feiltolket. Og …

– Særlig bannskap. Vi har jo et ganske rikt språk i Nord-Norge, det er det ingen tvil om, og det er en del av de uttrykkene som en amerikansk språkmodell vil slite med å fange opp.

Lokal munn

Derfor har de laget sin egen transkriberingsløsning. Den har de kalt for Flabb, som på dialekt betyr munn.

– På vår dialekt, så er det «å flabbe» å slenge med leppa.

Løsningen er bygget på Nasjonalbibliotekets Whisper-modell, som er lært opp på blant annet dialekteksempler.

– Whisper i dag fra OpenAI, er mye bedre på dialekt enn det var for et år siden. Men likevel er Nasjonalbibliotekets modell mye, mye bedre.

Flabb kjøres også lokalt på datamaskinen, noe Giske synes er bra. 

Oppfordrer til samarbeid

Flere store mediehus har sine egne transkriberingsboter, og Jojo er åpen for alle å bruke. I dag kan man også bruke Nasjonalbibliotekets Whisper-modell i Jojo.

I fremtiden tror og håper Giske vi vil se mer samarbeid om transkriberingsløsninger. For eksempel kan det gå på tvers av Amedia, Polaris og Schibsted, mener han.

– Å utvikle på hvert vårt nes, det har egentlig ganske lite for seg. 

– Om man er i Tromsø eller Ålesund eller Kristiansand, så har man det samme transkriberingsbehovet. Å få på plass en felles løsning for mediebransjen tror jeg er neste steg.

Han skryter av Nasjonalbibliotekets løsning, og påpeker at den er gratis å bruke.

– Modellene blir stadig bedre, og så er det opp til oss å sy det inn i en løsning som fungerer for våre journalister.

Har du tips til denne eller andre saker? Kontakt oss på: tips@medier24.no

Powered by Labrador CMS