Torgeir S Skrevet November 14, 2024 Del Skrevet November 14, 2024 Finnes det KI-verktøy som kan transkribere gammel håndskrift? Lenke til kommentar Del på andre sider More sharing options...
Werner Kvalem Vesterås Skrevet November 14, 2024 Del Skrevet November 14, 2024 (endret) Morsomt at du spør, fordi jeg prøvde ut ChatGPT på dette området her forleden. Her noe materiale fra en svensk ressurs som jeg fant i tydeforumet: Her er hva ChatGPT (o1-preview) foreslo: Edit: Jeg ser nå at jeg svarte i et underforum av "Spør Arkivverket". Jeg er ikke ansatt i arkivverket, og svarer som privatperson. Endret November 14, 2024 av Werner Kvalem Vesterås Torbjørn Igelkjøn og Ketil Firing Hanssen reagerte på dette 2 Lenke til kommentar Del på andre sider More sharing options...
Arkivverket - Kristian Hunskaar Skrevet November 14, 2024 Del Skrevet November 14, 2024 Vi har ansatte i Arkivverket som arbeider med Transkribus (https://www.transkribus.org/) for å gjenkjenne og transkribere håndskrift. Lenke til kommentar Del på andre sider More sharing options...
Arnfinn Kjelland Skrevet Februar 18 Del Skrevet Februar 18 Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus. Lenke til kommentar Del på andre sider More sharing options...
Torbjørn Igelkjøn Skrevet Februar 18 Del Skrevet Februar 18 Den er iallefall i bruk på ei samling amerikabrev: https://www.digitalarkivet.no/content/1734/amerikabrev-1838-1940 Leif B. Mathiesen og Arnfinn Kjelland reagerte på dette 2 Lenke til kommentar Del på andre sider More sharing options...
Arkivverket - Kristian Hunskaar Skrevet Februar 19 Del Skrevet Februar 19 På 18.2.2025 den 11.45, Arnfinn Kjelland skrev: Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus. Jeg kjenner ikke altfor godt til dette arbeidet, men i forbindelse med at Arkivverket gjør avskrifter av (enkeltinnførsler i) pantebøker for rettslig bruk, er det nå en sterk bevissthet omkring at disse avskriftene skal brukes som treningsdata for Transkribus, med tanke på å maskingenerere avskrifter av de berørte pantebøkene. En hel del pantebøker er maskinelt lest og inngår i Digitalarkivets tekstsøk, men kvaliteten er her veldig varierende, og jeg tror ikke det er Transkribus som er benyttet: https://nye.digitalarkivet.no/search/transcription?media=transcription&tags[]=54 Torbjørn Igelkjøn, Leif B. Mathiesen og Arnfinn Kjelland reagerte på dette 3 Lenke til kommentar Del på andre sider More sharing options...
Leif B. Mathiesen Skrevet Februar 20 Del Skrevet Februar 20 (endret) Transkribus har en egen infoside om norsk handskrift. https://www.transkribus.org/blog/4-ai-models-old-norwegian-handwriting Riksarkivet i Sverige har også ett program for å gjenkjenne og transkribere svenske håndskrift. https://riksarkivet.se/inlagg/ny-version-av-var-app-htrflow Endret Februar 20 av Leif B. Mathiesen Torbjørn Igelkjøn og Arnfinn Kjelland reagerte på dette 2 Lenke til kommentar Del på andre sider More sharing options...
Arkivverket - André Nilsson Dannevig Skrevet Februar 21 Del Skrevet Februar 21 (endret) On 2/18/2025 at 11:45 AM, Arnfinn Kjelland said: Dette er jo eit interessant felt. Er det råd å få status for utprøvinga av Transkribus i Arkivverket? Spesielt for pantebøkene, der de jo har 'fasit' for ikkje ubetydeleg delar av handskrift-korpus. Hei, Arnfinn og andre! Vi har flere prosjekter på gang hvor vi bruker håndskriftsgjenkjenning (HTR), både i og utenfor Transkribus. Bruken av OCR har allerede vært utbredt i Arkivverket, men HTR har kommet mer og mer de siste årene. OCR egner seg spesielt godt for trykt materiale, og noen ganger også maskinskrift. Det egner seg derimot veldig dårlig til håndskrift, noe vi har minst 600 millioner dokumentsider med – hvorav kun en brøkdel er digitalisert så langt. Til sammenligning har vi minst 2 milliarder dokumentsider totalt i arkivene, ikke medregnet digitalskapt. Hvis vi skal noen sjanse til å gjøre mye av dette søkbart, etter hvert som det skannes, er vi nødt til å bruke KI som et hjelpemiddel. Bruk av KI, i dette tilfellet HTR, kommer i tillegg til all den manuelle innsatsen med mennesker vi allerede legger i transkripsjoner, avskrifter osv. De eldste HTR-prosjektene vi har, har vært gjort på strukturerte data, som tabeller, skjema, kartotekkort osv. Eksempler på dette er Oslo bidragsfogd, ektepaktregistret og sesjonsdata. Noe av dette er kun til internt bruk, og er ikke publisert på nettet. HTR-lesing av løpende tekst er nytt. Vi har allerede publisert maskintranskripsjoner for noen slike arkiver, som dagbøker fra reindriftsforvaltningen, Andreas Fayes dagbøker, Overadmiralitetsretten og Sønnafjelske bergamt. Disse publiseres på dokumentsøket på Digitalarkivet. Vi er også i gang med et prosjekt med frivillige for å korrigere transkripsjoner av amerikabrev, som nevnt tidligere i tråden. For løpende tekst har vi brukt Transkribus til å korrigere maskintranskripsjonene. Noe av HTR-lesingen har vi gjort i Transkribus, mens andre arkiv har blitt maskinlest med verktøy vi har snekret sammen selv, som så har blitt lastet opp til Transkribus for korrektur. På sikt er tanken at vi skal maskinlese mer og mer håndskrift på løpende tekst med egne verktøy og modeller. Vi må hele tiden gjøre en avveining på om det er verdt å bruke HTR på et spesifikt arkiv, med tanke på hvilken kvalitet som trengs for å få noen gevinst ut av det, og hvor mye ressurser det krever å få kvaliteten så høy. Det er ikke helt trivielt å utnytte eksisterende avskrifter for å lage HTR-treningsdata. Det krever en del tilpasning. Vi har et internt prosjekt gående med bruk av tingbokavskrifter til treningsdata, men det går ikke raskere enn vi kan jobbe med det. Siden full automatisering av denne prosessen ikke er mulig i dag, vil det nok ta en liten stund før vi har laget nok data. Endret Februar 21 av André Nilsson Dannevig Leif B. Mathiesen, Arkivverket - Kristian Hunskaar, Arnfinn Kjelland og 1 annen reagerte på dette 4 Lenke til kommentar Del på andre sider More sharing options...
Arkivverket - André Nilsson Dannevig Skrevet Februar 21 Del Skrevet Februar 21 (endret) On 2/20/2025 at 1:35 PM, Leif B. Mathiesen said: Transkribus har en egen infoside om norsk handskrift. https://www.transkribus.org/blog/4-ai-models-old-norwegian-handwriting Riksarkivet i Sverige har også ett program for å gjenkjenne og transkribere svenske håndskrift. https://riksarkivet.se/inlagg/ny-version-av-var-app-htrflow Maskinlesing av dansk-norsk materiale i Transkribus drar god nytte av arbeidet våre danske og norske kollegaer har gjort. Disse dataene er også delt åpent, slik at man kan trene egne modeller utenfor Transkribus. For materiale fra mellom ca. 1840 til 1950, ville jeg brukt "NorHand 1820-1940", som er trent av Språkbanken på Nasjonalbiblioteket. For spesielt gotisk materiale fra 1800-tallet, ville jeg brukt "19th century Danish Gothic handwriting" fra Aarhus Stadsarkiv. For 1700-tallsmateriale, er "Danish 18th century Administrative Writing", også fra Aarhus Stadsarkiv, ofte bra. Det er selvfølgelig verdt å merke seg at disse anbefalingene er basert på våre interne, ofte anekdotiske tester, av eget arkivmateriale. Resultatet kan bli bedre på Arkivverkets arkiv, siden de minner om arkivene de har i Danmark fra samme periode, enn mye annet materiale. Endret Februar 21 av André Nilsson Dannevig Arkivverket - Kristian Hunskaar, Tore Jørgen Løwe, Arnfinn Kjelland og 2 andre reagerte på dette 5 Lenke til kommentar Del på andre sider More sharing options...
Recommended Posts
Logg inn for å kommentere
Du vil kunne skrive en kommentar etter at du logger inn
Logg inn nå