Tar i bruk kunstig intelligens for å gjenkjenne historisk, norsk håndskrift

Høgskolen i Østfold skal utvikle et system som kan gjenkjenne historisk og ukjent, norsk håndskrift. Et slikt system blir det første i sitt slag i Norge.

– Ved å bruke av ny programvare kan vi enkelt behandle og automatisk lese dokumenter fra 1700-tallet og utover som kan avsløre Norges historie – ulike vaner og praksiser i samfunnet på den tiden, forklarer Sukalpa Chanda ved HiØ. Bildet viser et håndskrevet brev fra Nasjonalbibliotekets samling. Foto: Gorm K. Gaare/Nasjonalbiblioteket.

Prosjektet er støttet av Forskningsrådet.

– Selv om det har vært en rivende utvikling i kunstig intelligens, datalingvistikk og nevrale nett finnes det ikke et slikt generelt skriftgjenkjenningssystem for norsk skrift i dag, forteller førsteamanuensis og forsker innen maskinlæring ved Høgskolen i Østfold, Sukalpa Chanda.

Chanda er ansvarlig for forskningsprosjektet Hugin-Munin ved høgskolen.

Historiske dokumenter kan fortelle oss hvordan mennesker levde i fortiden. Mer tilgjengelige og brukervennlige bildeinnsamlingsenheter har gjort digitaliseringen og arkivering av historiske dokumenter enklere.

Den nye skriftgjenkjenningen vil være svært aktuelle for Nasjonalbiblioteket som et senter for kulturarvsdigitalisering, flere norske gallerier, biblioteker, arkiver og museer.

Så langt vært forbeholdt eksperter og forskere

Prosjektet vil øke omfanget og variasjonen av kilder om norsk kultur og samfunn fra 1700-tallet og utover, og ikke minst gjøre det mer tilgjengelige for et større publikum. Dette har vært materiale som til nå hovedsakelig har vært forbeholdt domeneeksperter og forskere.

Men innsamling av nye data med den nye programvaren er ikke helt uproblematisk.

– Det å søke etter viktige og relevant informasjon fra den store samlingen av bilder i de digitale arkivene er en utfordrende oppgave, forteller Chanda.

Og legger til:

– De historiske dokumentene viser mange uønskede egenskaper som revnede og uskarpe segmenter, uønsket støy og falmede områder, håndskrevne merknader av historikere og gjenstander. Dette gjør det vanskelig med automatisk behandling av disse dokumentene.

Brukerne av slike digitale arkiver som for eksempel historikere, paleografer osv. er ofte ikke interessert i selve transkripsjonsprosessen av teksten. De er i større grad interessert i spesifikke dokumentsider der bestemte hendelser, stedsnavn og personnavn er nevnt.

– For å imøtekomme dette kravet spiller ordgjenkjenningsteknikker en viktig rolle siden de hjelper direkte med dokumentindeksering og gjenfinning, forteller forskeren.

Store mengder dokumenter kan gjøres lettere tilgjengelig

I følge forskere er et digitalisert dokument i utgangspunktet en visuell representasjon som bare kan leses av mennesker. For å tillate beregningsmessig analyse, må informasjonen i dokumentet gjøres maskinlesbar. Dette er for tiden standard prosedyre ved digitalisering av trykte dokumenter ved hjelp av Optical Character Recognition (OCR), som er en teknikk for elektronisk eller maskinell oversettelse av trykte bokstaver eller håndskrift.

– Klassisk ordgjenkjenning innebærer å trene en maskinlæringsmodell for å gjenkjenne ordene gitt bildene som inneholder dem, forklarer Chanda.

Han forteller videre at dette forutsetter at testspørringsbildene også kun inneholder ordene som ble presentert under selve opplæringen. Dette krever igjen at et stort antall menneskekommenterte ordbilder er for trening som viser seg å være svært tids- og ressurskrevende.

Prosjektet vil motvirke dette problemet ved å utvikle læringsalgoritmer, kalt Zero-Shot Learning, som kan gjenkjenne et helt nytt og usett ordklassebilde, slik at for eksempel en modell er opplært til å identifisere tre ord, som for eksempel katt, flaggermus og bil.

En vanlig læringsalgoritme vil ikke kunne identifisere et nytt ord "hus" siden det ikke har blitt trent med det ordet, men en Zero-Shot læringsalgoritme vil kunne gjenkjenne ordet "hus".

– Dette prosjektet vil bidra til å gjenkjenne ordbilder som aldri ble brukt til å trene læringsalgoritmen og vil dermed gjøre en enorm mengde digitaliserte historiske norske dokumentbilder mer tilgjengelige, sier Chanda.

Prosjektet pågår frem til 01.02.2025.

Prosjektside for Hugin Munin prosjektet

Sukalpa Chanda

Førsteamanuensis
Institutt for informasjonsteknologi og kommunikasjon

Av Nina Fredheim

Publisert 13. des. 2022 17:53 - Sist endret 13. des. 2022 17:53