Gå til innhold
Arkivverket

KI og transkribering


Torgeir S
 Del

Recommended Posts

Morsomt at du spør, fordi jeg prøvde ut ChatGPT på dette området her forleden.  Her noe materiale fra en svensk ressurs som jeg fant i tydeforumet:

image.thumb.png.acb114cb2ed0b3fba5dd17ed4a557932.png

Her er hva ChatGPT (o1-preview) foreslo:

image.thumb.png.a3e9241eabb88b895bdf6e353ce65023.png

Edit:  Jeg ser nå at jeg svarte i et underforum av "Spør Arkivverket".  Jeg er ikke ansatt i arkivverket, og svarer som privatperson.

Endret av Werner Kvalem Vesterås
  • Liker 2
Lenke til kommentar
Del på andre sider

  • 3 måneder senere...

Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus.

Lenke til kommentar
Del på andre sider

På 18.2.2025 den 11.45, Arnfinn Kjelland skrev:

Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus.

 

Jeg kjenner ikke altfor godt til dette arbeidet, men i forbindelse med at Arkivverket gjør avskrifter av (enkeltinnførsler i) pantebøker for rettslig bruk, er det nå en sterk bevissthet omkring at disse avskriftene skal brukes som treningsdata for Transkribus, med tanke på å maskingenerere avskrifter av de berørte pantebøkene.

 

En hel del pantebøker er maskinelt lest og inngår i Digitalarkivets tekstsøk, men kvaliteten er her veldig varierende, og jeg tror ikke det er Transkribus som er benyttet: https://nye.digitalarkivet.no/search/transcription?media=transcription&tags[]=54

  • Liker 3
Lenke til kommentar
Del på andre sider

Transkribus  har en egen infoside om norsk handskrift.

https://www.transkribus.org/blog/4-ai-models-old-norwegian-handwriting

 

Riksarkivet i Sverige har også ett program for å gjenkjenne og transkribere svenske håndskrift.

https://riksarkivet.se/inlagg/ny-version-av-var-app-htrflow

 

Endret av Leif B. Mathiesen
  • Liker 2
Lenke til kommentar
Del på andre sider

On 2/18/2025 at 11:45 AM, Arnfinn Kjelland said:

Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus.

 

Hei, Arnfinn og andre!
 

Vi har flere prosjekter på gang hvor vi bruker håndskriftsgjenkjenning (HTR), både i og utenfor Transkribus.

 

Bruken av OCR har allerede vært utbredt i Arkivverket, men HTR har kommet mer og mer de siste årene. OCR egner seg spesielt godt for trykt materiale, og noen ganger også maskinskrift. Det egner seg derimot veldig dårlig til håndskrift, noe vi har minst 600 millioner dokumentsider med – hvorav kun en brøkdel er digitalisert så langt. Til sammenligning har vi minst 2 milliarder dokumentsider totalt i arkivene, ikke medregnet digitalskapt. Hvis vi skal noen sjanse til å gjøre mye av dette søkbart, etter hvert som det skannes, er vi nødt til å bruke KI som et hjelpemiddel. Bruk av KI, i dette tilfellet HTR, kommer i tillegg til all den manuelle innsatsen med mennesker vi allerede legger i transkripsjoner, avskrifter osv.

 

De eldste HTR-prosjektene vi har, har vært gjort på strukturerte data, som tabeller, skjema, kartotekkort osv. Eksempler på dette er Oslo bidragsfogd, ektepaktregistret og sesjonsdata. Noe av dette er kun til internt bruk, og er ikke publisert på nettet.

 

HTR-lesing av løpende tekst er nytt. Vi har allerede publisert maskintranskripsjoner for noen slike arkiver, som dagbøker fra reindriftsforvaltningen, Andreas Fayes dagbøker, Overadmiralitetsretten og Sønnafjelske bergamt. Disse publiseres på dokumentsøket på Digitalarkivet. Vi er også i gang med et prosjekt med frivillige for å korrigere transkripsjoner av amerikabrev, som nevnt tidligere i tråden.

 

For løpende tekst har vi brukt Transkribus til å korrigere maskintranskripsjonene. Noe av HTR-lesingen har vi gjort i Transkribus, mens andre arkiv har blitt maskinlest med verktøy vi har snekret sammen selv, som så har blitt lastet opp til Transkribus for korrektur. På sikt er tanken at vi skal maskinlese mer og mer håndskrift på løpende tekst med egne verktøy og modeller.

 

Vi må hele tiden gjøre en avveining på om det er verdt å bruke HTR på et spesifikt arkiv, med tanke på hvilken kvalitet som trengs for å få noen gevinst ut av det, og hvor mye ressurser det krever å få kvaliteten så høy.

 

Det er ikke helt trivielt å utnytte eksisterende avskrifter for å lage HTR-treningsdata. Det krever en del tilpasning. Vi har et internt prosjekt gående med bruk av tingbokavskrifter til treningsdata, men det går ikke raskere enn vi kan jobbe med det. Siden full automatisering av denne prosessen ikke er mulig i dag, vil det nok ta en liten stund før vi har laget nok data.

Endret av André Nilsson Dannevig
  • Liker 2
Lenke til kommentar
Del på andre sider

On 2/20/2025 at 1:35 PM, Leif B. Mathiesen said:

Transkribus  har en egen infoside om norsk handskrift.

https://www.transkribus.org/blog/4-ai-models-old-norwegian-handwriting

 

Riksarkivet i Sverige har også ett program for å gjenkjenne og transkribere svenske håndskrift.

https://riksarkivet.se/inlagg/ny-version-av-var-app-htrflow

 

 

Maskinlesing av dansk-norsk materiale i Transkribus drar god nytte av arbeidet våre danske og norske kollegaer har gjort. Disse dataene er også delt åpent, slik at man kan trene egne modeller utenfor Transkribus.

 

For materiale fra mellom ca. 1840 til 1950, ville jeg brukt "NorHand 1820-1940", som er trent av Språkbanken på Nasjonalbiblioteket.

For spesielt gotisk materiale fra 1800-tallet, ville jeg brukt "19th century Danish Gothic handwriting" fra Aarhus Stadsarkiv.

 

For 1700-tallsmateriale, er "Danish 18th century Administrative Writing", også fra Aarhus Stadsarkiv, ofte bra.

Det er selvfølgelig verdt å merke seg at disse anbefalingene er basert på våre interne, ofte anekdotiske tester, av eget arkivmateriale. Resultatet kan bli bedre på Arkivverkets arkiv, siden de minner om arkivene de har i Danmark fra samme periode, enn mye annet materiale.

Endret av André Nilsson Dannevig
  • Liker 3
Lenke til kommentar
Del på andre sider

Join the conversation

Du kan poste nå og registrere deg senere. If you have an account, sign in now to post with your account.

Gjest
Skriv svar til emnet...

×   Du har limt inn tekst med formatering.   Fjern formatering

  Only 75 emoji are allowed.

×   Lenken din har blitt bygget inn på siden automatisk.   Vis som en ordinær lenke i stedet

×   Ditt forrige innhold har blitt gjenopprettet .   Tøm tekstverktøy

×   You cannot paste images directly. Upload or insert images from URL.

 Del

  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...

Viktig Informasjon

Arkivverket bruker cookies (informasjonskapsler) på sine nettsider for å levere en bedre tjeneste. De brukes til bl.a. skjemaoppdateringer og innlogging. Bruk siden som normalt, eller lukk informasjonsboksen for å akseptere bruk av cookies.