Torgeir S Posted November 14, 2024 Share Posted November 14, 2024 Finnes det KI-verktøy som kan transkribere gammel håndskrift? Quote Link to comment Share on other sites More sharing options...
Werner Kvalem Vesterås Posted November 14, 2024 Share Posted November 14, 2024 (edited) Morsomt at du spør, fordi jeg prøvde ut ChatGPT på dette området her forleden. Her noe materiale fra en svensk ressurs som jeg fant i tydeforumet: Her er hva ChatGPT (o1-preview) foreslo: Edit: Jeg ser nå at jeg svarte i et underforum av "Spør Arkivverket". Jeg er ikke ansatt i arkivverket, og svarer som privatperson. Edited November 14, 2024 by Werner Kvalem Vesterås Torbjørn Igelkjøn and Ketil Firing Hanssen 2 Quote Link to comment Share on other sites More sharing options...
Arkivverket - Kristian Hunskaar Posted November 14, 2024 Share Posted November 14, 2024 Vi har ansatte i Arkivverket som arbeider med Transkribus (https://www.transkribus.org/) for å gjenkjenne og transkribere håndskrift. Quote Link to comment Share on other sites More sharing options...
Arnfinn Kjelland Posted February 18 Share Posted February 18 Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus. Quote Link to comment Share on other sites More sharing options...
Torbjørn Igelkjøn Posted February 18 Share Posted February 18 Den er iallefall i bruk på ei samling amerikabrev: https://www.digitalarkivet.no/content/1734/amerikabrev-1838-1940 Arnfinn Kjelland and Leif B. Mathiesen 2 Quote Link to comment Share on other sites More sharing options...
Arkivverket - Kristian Hunskaar Posted February 19 Share Posted February 19 På 18.2.2025 den 11.45, Arnfinn Kjelland skrev: Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus. Jeg kjenner ikke altfor godt til dette arbeidet, men i forbindelse med at Arkivverket gjør avskrifter av (enkeltinnførsler i) pantebøker for rettslig bruk, er det nå en sterk bevissthet omkring at disse avskriftene skal brukes som treningsdata for Transkribus, med tanke på å maskingenerere avskrifter av de berørte pantebøkene. En hel del pantebøker er maskinelt lest og inngår i Digitalarkivets tekstsøk, men kvaliteten er her veldig varierende, og jeg tror ikke det er Transkribus som er benyttet: https://nye.digitalarkivet.no/search/transcription?media=transcription&tags[]=54 Leif B. Mathiesen, Torbjørn Igelkjøn and Arnfinn Kjelland 3 Quote Link to comment Share on other sites More sharing options...
Leif B. Mathiesen Posted February 20 Share Posted February 20 (edited) Transkribus har en egen infoside om norsk handskrift. https://www.transkribus.org/blog/4-ai-models-old-norwegian-handwriting Riksarkivet i Sverige har også ett program for å gjenkjenne og transkribere svenske håndskrift. https://riksarkivet.se/inlagg/ny-version-av-var-app-htrflow Edited February 20 by Leif B. Mathiesen Arnfinn Kjelland and Torbjørn Igelkjøn 2 Quote Link to comment Share on other sites More sharing options...
André Nilsson Dannevig Posted February 21 Share Posted February 21 (edited) On 2/18/2025 at 11:45 AM, Arnfinn Kjelland said: Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus. Hei, Arnfinn og andre! Vi har flere prosjekter på gang hvor vi bruker håndskriftsgjenkjenning (HTR), både i og utenfor Transkribus. Bruken av OCR har allerede vært utbredt i Arkivverket, men HTR har kommet mer og mer de siste årene. OCR egner seg spesielt godt for trykt materiale, og noen ganger også maskinskrift. Det egner seg derimot veldig dårlig til håndskrift, noe vi har minst 600 millioner dokumentsider med – hvorav kun en brøkdel er digitalisert så langt. Til sammenligning har vi minst 2 milliarder dokumentsider totalt i arkivene, ikke medregnet digitalskapt. Hvis vi skal noen sjanse til å gjøre mye av dette søkbart, etter hvert som det skannes, er vi nødt til å bruke KI som et hjelpemiddel. Bruk av KI, i dette tilfellet HTR, kommer i tillegg til all den manuelle innsatsen med mennesker vi allerede legger i transkripsjoner, avskrifter osv. De eldste HTR-prosjektene vi har, har vært gjort på strukturerte data, som tabeller, skjema, kartotekkort osv. Eksempler på dette er Oslo bidragsfogd, ektepaktregistret og sesjonsdata. Noe av dette er kun til internt bruk, og er ikke publisert på nettet. HTR-lesing av løpende tekst er nytt. Vi har allerede publisert maskintranskripsjoner for noen slike arkiver, som dagbøker fra reindriftsforvaltningen, Andreas Fayes dagbøker, Overadmiralitetsretten og Sønnafjelske bergamt. Disse publiseres på dokumentsøket på Digitalarkivet. Vi er også i gang med et prosjekt med frivillige for å korrigere transkripsjoner av amerikabrev, som nevnt tidligere i tråden. For løpende tekst har vi brukt Transkribus til å korrigere maskintranskripsjonene. Noe av HTR-lesingen har vi gjort i Transkribus, mens andre arkiv har blitt maskinlest med verktøy vi har snekret sammen selv, som så har blitt lastet opp til Transkribus for korrektur. På sikt er tanken at vi skal maskinlese mer og mer håndskrift på løpende tekst med egne verktøy og modeller. Vi må hele tiden gjøre en avveining på om det er verdt å bruke HTR på et spesifikt arkiv, med tanke på hvilken kvalitet som trengs for å få noen gevinst ut av det, og hvor mye ressurser det krever å få kvaliteten så høy. Det er ikke helt trivielt å utnytte eksisterende avskrifter for å lage HTR-treningsdata. Det krever en del tilpasning. Vi har et internt prosjekt gående med bruk av tingbokavskrifter til treningsdata, men det går ikke raskere enn vi kan jobbe med det. Siden full automatisering av denne prosessen ikke er mulig i dag, vil det nok ta en liten stund før vi har laget nok data. Edited February 21 by André Nilsson Dannevig Arkivverket - Kristian Hunskaar, Torbjørn Igelkjøn, Arnfinn Kjelland and 1 other 4 Quote Link to comment Share on other sites More sharing options...
André Nilsson Dannevig Posted February 21 Share Posted February 21 (edited) On 2/20/2025 at 1:35 PM, Leif B. Mathiesen said: Transkribus har en egen infoside om norsk handskrift. https://www.transkribus.org/blog/4-ai-models-old-norwegian-handwriting Riksarkivet i Sverige har også ett program for å gjenkjenne og transkribere svenske håndskrift. https://riksarkivet.se/inlagg/ny-version-av-var-app-htrflow Maskinlesing av dansk-norsk materiale i Transkribus drar god nytte av arbeidet våre danske og norske kollegaer har gjort. Disse dataene er også delt åpent, slik at man kan trene egne modeller utenfor Transkribus. For materiale fra mellom ca. 1840 til 1950, ville jeg brukt "NorHand 1820-1940", som er trent av Språkbanken på Nasjonalbiblioteket. For spesielt gotisk materiale fra 1800-tallet, ville jeg brukt "19th century Danish Gothic handwriting" fra Aarhus Stadsarkiv. For 1700-tallsmateriale, er "Danish 18th century Administrative Writing", også fra Aarhus Stadsarkiv, ofte bra. Det er selvfølgelig verdt å merke seg at disse anbefalingene er basert på våre interne, ofte anekdotiske tester, av eget arkivmateriale. Resultatet kan bli bedre på Arkivverkets arkiv, siden de minner om arkivene de har i Danmark fra samme periode, enn mye annet materiale. Edited February 21 by André Nilsson Dannevig Tore Jørgen Løwe, Arnfinn Kjelland, Arkivverket - Kristian Hunskaar and 2 others 5 Quote Link to comment Share on other sites More sharing options...
Recommended Posts
Join the conversation
You can post now and register later. If you have an account, sign in now to post with your account.