English version of this page
Pågående prosjekt

Hugin-munin: Enhanced Access to Norwegian Cultural Heritage using AI-driven Handwriting Recognition

Prosjektets hovedmål er å lage et system basert på kunstig intelligens, som kan gjenkjenne historisk norsk håndskrift som systemet ikke har sett før og ikke er inkludert i treningen.

Om prosjektet

Selv om det har vært en rivende utvikling i kunstig intelligens, datalingvistikk og nevrale nett finnes det ikke et slikt generelt håndskriftsgjenkjenningssystem for norsk i dag. Det finnes bare spesialiserte systemer som bare kan gjenkjenne håndskrift fra skribenter i treningssettet med tilstrekkelig kvalitet.

Delmål er å bedre spesiell gjenkjenning for skribenter i treningssettet, øke antall skribenter brukt i treningssettene og automatisere treningsprosessen i så stor grad som mulig. 

Følgende trinn vil bli brukt å oppnå målene:
-Lage et robust layout-analysesystem ut fra eksisterende systemer, som også kan tilpasses til en skribentstil.  Layout-analyse, det vil si å finne tekstlinjer og deres rekkefølge, er et viktig trinn i gjenkjenningsprosessen.
-Bruke og adaptere state-of-the-art nevral nettverksteknologi for ord og tegngjenkjenning.
-Benytte avansert datalingvistikk for historisk norsk for å bedre gjenkjenningen.
-Integrere nye teknikker som å lage kunstige dokumenter som etterligner håndskriften til en skribent (ved å bruke GAN-nettverk), men med et kjent innhold som kan brukes til trening uten manuelt arbeid. Videre benytte en trenbar egenskapsbasert metode (?Zero-shot word spotting?) for å gjenkjenne ord og koble sammen med resultater fra andre metoder.
-Generere et stort treningssett med ulike skriftstiler og forsøke å minimere manuelt arbeid i forbindelse med transkriberingen.

Prosjektet vil i stor grad vektlegge testing og analyse av testresultater i hele utviklingsprosessen for å følge progresjonen og finne problemer som krever spesielle tiltak.

Prosjektets tidsramme

Prosjektperiode: 01.10.2021 - 01.02.2025

Prosjekttype

Samarbeidsprosjekt for å møte utfordringer i samfunn og næringsliv

Finansiering

Fra Forskningsrådet 11 995 kNOK. Totalt for prosjektet: 15 366 kNOK

Samarbeid

HØGSKOLEN I ØSTFOLD 
NASJONALBIBLIOTEKET 
TIDVIS AS

ANAHIT AS

TEKLIA 

Deltakere

Publikasjoner

  • Maarand, Martin; Beyer, Yngvil; Kåsen, Andre; Fosseide, Knut T. & Kermorvant, Christopher (2022). A Comprehensive Comparison of Open-Source Libraries for Handwritten Text Recognition in Norwegian, Document Analysis Systems: 15th IAPR International Workshop, DAS 2022, La Rochelle, France, May 22–25, 2022, Proceedings. Springer. ISSN 978-3-031-06554-5. s. 399–413. doi: 10.1007/978-3-031-06555-2_27.

Se alle arbeider i Cristin

Se alle arbeider i Cristin

Emneord: Det digitale samfunn, DigiTech
Publisert 17. nov. 2021 09:40 - Sist endret 13. juli 2023 22:05