Om prosjektet
Selv om det har vært en rivende utvikling i kunstig intelligens, datalingvistikk og nevrale nett finnes det ikke et slikt generelt håndskriftsgjenkjenningssystem for norsk i dag. Det finnes bare spesialiserte systemer som bare kan gjenkjenne håndskrift fra skribenter i treningssettet med tilstrekkelig kvalitet.
Delmål er å bedre spesiell gjenkjenning for skribenter i treningssettet, øke antall skribenter brukt i treningssettene og automatisere treningsprosessen i så stor grad som mulig.
Følgende trinn vil bli brukt å oppnå målene:
-Lage et robust layout-analysesystem ut fra eksisterende systemer, som også kan tilpasses til en skribentstil. Layout-analyse, det vil si å finne tekstlinjer og deres rekkefølge, er et viktig trinn i gjenkjenningsprosessen.
-Bruke og adaptere state-of-the-art nevral nettverksteknologi for ord og tegngjenkjenning.
-Benytte avansert datalingvistikk for historisk norsk for å bedre gjenkjenningen.
-Integrere nye teknikker som å lage kunstige dokumenter som etterligner håndskriften til en skribent (ved å bruke GAN-nettverk), men med et kjent innhold som kan brukes til trening uten manuelt arbeid. Videre benytte en trenbar egenskapsbasert metode (?Zero-shot word spotting?) for å gjenkjenne ord og koble sammen med resultater fra andre metoder.
-Generere et stort treningssett med ulike skriftstiler og forsøke å minimere manuelt arbeid i forbindelse med transkriberingen.
Prosjektet vil i stor grad vektlegge testing og analyse av testresultater i hele utviklingsprosessen for å følge progresjonen og finne problemer som krever spesielle tiltak.
Prosjektets tidsramme
Prosjektperiode: 01.10.2021 - 01.02.2025
Prosjekttype
Samarbeidsprosjekt for å møte utfordringer i samfunn og næringsliv
Finansiering
Fra Forskningsrådet 11 995 kNOK. Totalt for prosjektet: 15 366 kNOK
Samarbeid
HØGSKOLEN I ØSTFOLD
NASJONALBIBLIOTEKET
TIDVIS AS
ANAHIT AS
TEKLIA