Folketellinga 1950: Nye metoder for effektiv transkribering

April 24, 2018

Forskningsprosjektet Historisk befolkningsregister (HBR) er nå godt i gang med å transkribere Folke- og boligtellingen 1950 (FoB1950). Kilden er omrammet av Statistikkloven og vil være lukket for allmennheten fram til 2050. Metodene vi har brukt for å effektivisere transkriberingsprosessen kan imidlertid være interessante for brukerne av Digitalarkivet og presenteres derfor her.

Som mange her inne er godt kjent med er det å transkribere håndskrevne kilder en svært tidkrevende oppgave. Å transkribere en landsdekkende kilde som FoB1950 (3.47 millioner personer) ville tradisjonelt tatt 200+ årsverk. HBR-prosjektet har derfor investert betydelig tid i å utvikle metoder og en arbeidsprosess som kan effektivisere arbeidet. Det har vi lykkes godt med, og vi regner nå med å kunne sluttføre jobben med bare 2-4 årsverk brukt på manuell transkribering. Dette oppnår vi ved å bruke en rekke ulike teknikker, deriblant maskinlæring der det har foregått en forrykende teknologisk utvikling de siste årene.

Det første steget i arbeidet er at de skannede bildene av originalskjemaet klippes opp i sine enkeltruter. Dette er en ren maskinell bildebehandlingsoppgave der programmet leser seg fram til hvor rutenettet befinner seg i hvert enkeltbilde. På denne måten kan vi for eksempel behandle navn separat fra fødselsdatofeltet, og vi kan stokke om rekkefølgen på navnebildene som vi vil. Et system med streng logikk i identifikasjonsnummer for hvert slik «cellebilde» gjør at vi likevel har full kontroll på hvilke bilder som bor hvor og hvordan de står i forhold til hverandre.

Dernest tilegnes cellebildene forslag til transkribert verdi maskinelt. Dette skjer delvis ved bruk av maskinlesing (såkalte dype nevrale nett). Dette programmet leser ikke bokstav for bokstav, men har lært seg å kjenne igjen bilder av navnene «Ole» og «Marit» på samme måte som slike nett ofte brukes til å kjenne igjen et bilde av en hund eller en tiger. Vi bruker også en hel del andre lignende triks, men jeg skal ikke gå i detalj på det her.

Like viktig som maskinlesingen er det vi kaller «protolenking». Basert f.eks. på fødedato og fødekommune kan vi ofte lenke personen ganske presist til arkivkopier av Folkeregisteret eller folketellinga 1960 (som begge foreligger digitalt for bruk i prosjektet). Selv om navnet i 1950 er ukjent kan vi derfor få en god gjetning basert på å bruke navnet fra Folkeregisteret. Poenget er ikke at lenkene alltid må være riktige, bare at de er såpass presise at de hjelper oss for å effektivisere transkriberinga. All «endelig» lenking blir gjort senere når alt er på plass.

Vi kan deretter legge alle bilder som vi maskinelt har gjettet på skal være en «Hans» i en sekk, alle «Anne» i en annen sekk og så videre. Hverken maskinlesing eller «protolenking» fungerer optimalt alene, men i kombinasjon gir de veldig gode resultater.

Alt går så til manuell korrekturlesing. Vi transkriberer dermed ikke manuelt i klassisk forstand, men transkribert verdi framkommer som godkjent korrekturlesing. Noen deler av materialet blir så godt behandlet maskinelt at man bare må luke ut 1% som feil, i andre tilfeller må man luke ut halvparten. De som lukes ut går tilbake i potten og vi vil maskinelt prøve en ny verdi.

For dette manuelle korrektur-/transkriberingsarbeidet har vi utviklet et enkelt webbasert grensesnitt «HBRTRANSK». Her arbeider man med 1-35 bilder av gangen (se et eksempel i skjermdump vedlagt under). De som avviker fra maskinelt satt verdi trykkes vekk, resten beholdes og godkjennes. Grensesnittet er lett å bruke og man kan jobbe svært effektivt. Med litt trening kan man greit «transkribere» ca 4.000 navn i timen (1 per sekund). Vi har med svært begrenset arbeidskraft så langt behandlet ca 8.5 millioner felt fra navn- og fødestedskolonnen på denne måten.

Dersom noen har lyst til å se hvordan dette fungerer i praksis eller bare danne seg et inntrykk av hvor gode de maskinelle gjetningene er, så står alle fritt til å prøve ut en testversjon av HBRTRANSK på:

http://rhd.uit.no/clusterGUI/.

Merk at det er noen enkle retningslinjer for bruk, men disse er det ikke kritisk at man følger i denne testversjonen. Retningslinjene, og litt mer om hvordan systemet fungerer, finner du i det vedlagte notatet.

Om noen skulle finne dette såpass interessant at de kunne tenke seg å bidra inn mot selve transkriberingen må man bruke den operative versjonen av HBRTRANSK. Arbeid utført i testversjonen vil ikke bli brukt videre. Interessenter kan sende meg en melding via forumet så skal de få informasjon om tilgang. Alle slike bidrag, små eller store, mottas med største takk.

Folke- og boligtellinga 1950 er ca 60% transkribert og vil etter planen bli ferdig mot slutten av året. Deretter står 1930-tellinga for tur. Dersom vi får videre finansiering vil vi så ta fatt på andre lignende kilder.

Jeg svarer gjerne på spørsmål, men gjør oppmerksom på at jeg ikke er aktiv bruker av dette forumet og ikke kan garantere at jeg får med meg alle slike i tide.

Kåre Bævre

Historisk befolkningsregister

Folkehelseinstituttet

HBRTRANSK_DA.pdf

SKJERMDUMP_AAGE.pdf

Mai 1, 2018

På 24.4.2018 den 19.46, Kåre Bævre skrev:

Basert f.eks. på fødedato og fødekommune kan vi ofte lenke personen ganske presist til arkivkopier av Folkeregisteret eller folketellinga 1960 (som begge foreligger digitalt for bruk i prosjektet).

Er dette materiale som var digitalt i utgangspunktet, eller er det blitt transkribert seinare?

Er det slik at folketeljingane frå og med 1960 er digitale, dermed startar ein med å teste ut dei nye teknikkane på den som ligg nærmast (1950), for så å ta for seg 1930? Kva med den frå 1946?

Endret Mai 1, 2018 av Torbjørn Igelkjøn

Mai 1, 2018

Det er svært lite å finne på nettet om listene frå folketeljingane frå og med 1920, anna enn at dei er klausulerte. Kva for informasjon inneheld desse folketeljingane samanlikna med 1910 og tidlegare? Er opplysningane henta inn ved at ein gjekk frå hus til hus og spurde, eller har ein brukt folkeregister som kjelde? Inneheld alle folketeljingane etter 1910 komplette lister over alle innbyggjarar i heile landet, eller finst det lakuner? Kva skilnader er det mellom folketeljinga i 1946 og i 1950, og kvifor valde ein å ha folketeljing i 1950 når det vart gjennomført folketeljing berre 4 år tidlegare?

Etter mi meining hadde det vore interessant om Digitalarkivet eller andre kunne skrive ein heilskapleg artikkel som omhandla alle folketeljingane som har vore gjennomført og kva dei inneheld, også dei frå og med 1920. Dermed ville ein også få vite litt om kva ein har å gle seg til i 2020, 2030, 2050 osv.

(Dette vart rett nok litt på sida av temaet).

Mai 1, 2018

Jeg kan svare på noe av dette:

10 timer siden, Torbjørn Igelkjøn skrev:

Er dette materiale som var digitalt i utgangspunktet, eller er det blitt transkribert seinare?

Er det slik at folketeljingane frå og med 1960 er digitale, dermed startar ein med å teste ut dei nye teknikkane på den som ligg nærmast (1950), for så å ta for seg 1930? Kva med den frå 1946?

Folketellingene var på papir i alle fall til og med 1970, da mi mor var med på å distribuere skjema. Prosjektet HBR har finansiert skanning av folketellingene 1950 og 1930; skanningsarbeidet er utført av Arkivverket. Disse tellingene ble prioritert for å få rimelige sprang 1910-1930-1950-1964 (folkeregisteret). I tillegg kommer 1920 inn om et par år. Prosjektet HBR arbeider med å transkribere de skanna skjemaene mest mulig effektivt, og det er dette Kåre Bævre beskriver.

10 timer siden, Torbjørn Igelkjøn skrev:

Det er svært lite å finne på nettet om listene frå folketeljingane frå og med 1920, anna enn at dei er klausulerte. Kva for informasjon inneheld desse folketeljingane samanlikna med 1910 og tidlegare? Er opplysningane henta inn ved at ein gjekk frå hus til hus og spurde, eller har ein brukt folkeregister som kjelde? Inneheld alle folketeljingane etter 1910 komplette lister over alle innbyggjarar i heile landet, eller finst det lakuner? Kva skilnader er det mellom folketeljinga i 1946 og i 1950, og kvifor valde ein å ha folketeljing i 1950 når det vart gjennomført folketeljing berre 4 år tidlegare?

Etter mi meining hadde det vore interessant om Digitalarkivet eller andre kunne skrive ein heilskapleg artikkel som omhandla alle folketeljingane som har vore gjennomført og kva dei inneheld, også dei frå og med 1920. Dermed ville ein også få vite litt om kva ein har å gle seg til i 2020, 2030, 2050 osv.

Jeg tror du finner det meste du lurer på hos SSB, bl.a. i publikasjonene om de forskjellige tellingene: https://www.ssb.no/a/folketellinger/

1946-tellinga skulle egentlig vært avholdt i 1940, men måtte utsettes. I 1950 var man dermed tilbake til det faste mønsteret med tellinger i år med siste siffer 0, noe som var standard internasjonalt.

Eventuelle lakuner vil kanskje først avdekkes i forbindelse med skannings- og transkriberingsarbeid. Større lakuner vil ofte ha sammenheng med at skjemaene på ymse vis har kommet bort hos SSB før avlevering til Arkivverket.

Mai 1, 2018

Takk for fyldig og godt svar.

Eg forstår det slik at Ft1960 allereie er transkribert, slik at den (og arkivkopiar av folkeregisteret) kan brukast av dataprogrammet til å komme med forslag til namn i Ft1950. Er dette arbeidet gjort nyleg, og er det HBR som har utført det? Eller er det eg som misforstår?

Når det gjeld folkeregisteret frå 1964, så var vel det digitalt allereie i utgangspunktet?

Endret Mai 1, 2018 av Torbjørn Igelkjøn

Mai 2, 2018

Folketellinga 1960 ble i 1980 overført fra hullkort til datafil av SSB. Dette er riktignok en versjon uten navn, men med fødselsnummer. Folketellinga 1960 var utgangspunktet for opprettelsen av Folkeregisteret i 1964. Alle personer i 1960 fikk fødselsnummer selv om de døde eller utvandret før 1964. Folkeregisteret og tellingene 1970, 1980, 1990 og 2001 (den siste) ble opprettet som datafiler i den originale bearbeidingen i SSB.

Også i 1950 brukte man hullkort (som SSB startet med i 1900), men disse er senere kommet bort. De ville uansett hatt begrenset verdi fordi personene ikke er identifisert ved navn eller fødselsnummer og man slik ikke kan lenke personene mot andre kilder eller over tid.

Beste oversikt over innholdet i tellingene er nok de SSB-publikasjonene Kristian viser til. Hefte 1 under hver telling starter i regelen med en omtale av tellingens innhold og gjennomføring. Veldig kort oppsummert kan man si at tellingene 1920 og senere ligner mye på de foregående tellingene. Noen opplysninger forsvinner fordi de mister sin relevans sosialt eller politisk (stand, etnisitet osv), mens noen nye kommer til (utdanning, inntekt osv). Tellingene etter 1960 lener seg også betydelig på Folkeregisteret og andre registre. I dag har SSB faset ut tradisjonelle folketellinger til fordel for rent registerbaserte «tellinger».

Individopplysninger fra folketellingene 1960-2001 har lenge blitt brukt i en lang rekke ulike forskningsprosjekt, som regel i kombinasjon med opplysninger fra andre registre. Det har vært et hovedmål for prosjektet Historisk befolkningsregister (HBR) å framskaffe slike data som går lenger tilbake i tid.

HBR-prosjektet har så langt altså prioritert 1950, med 1930 som neste i køen. Det bygger en brukbar bru helt tilbake til de åpne kildene i 1910. Dernest prioriterer vi fødte, døde og gifte fram til 1960. Forhåpentligvis vil også 1920-tellinga foreligge digitalt innen 2020. Tellinga 1946 er slik sett litt bak i køen.

Vi håper altså å bli ferdige med 1950 i år. Det bør også være helt overkommelig å få tatt 1930 neste år. Men finansieringen fra Forskningsrådet løper ut rundt årsskiftet, så vi er avhengige av å skaffe ny finansiering for å kunne holde så høyt produksjonsnivå. Metodene vi har utviklet kutter altså kostnadene for hver telling fra 200+ årsverk til noen få årsverk.

Mai 2, 2018

Takk for eit interessant og oppklarande innlegg.

Men eg lurer litt på korleis ei datafil utan namn, men med fødselsnummer kan vere til nytte i dette arbeidet.

Mai 2, 2018

Vi kan sy på navn på folketellinga 1960 ved å bruke fødselsnummeret og hente navnet fra Folkeregisteret (næmerere bestemt Folkeregisteret anno ca 1970).

Som et eksempel på slike "protolenker" som jeg omtaler over: Som første runde koblet vi sammen hushold i 1950 og 1960 ved å finne hushold der to eller flere personer hadde eksakt samme fødslesdato. Personer innad i disse husholdene med identisk fødselsdato i 1950 og 1960 ble antatt å være samme person. Fødselsdatofeltet var da allerede transkribert som et aller første trinn. Vi hentet så fornavnet i 1960 fra Folkeregisteret. Deretter korrekturleste vi disse i HBRTRANSK. Det viste seg at ca 75% av disse gjetningene stemte. På denne måten fikk vi et første utvalg cellebilder med transkriberte fornavn. Dette utvalget på ca 400.000 bilder ble så brukt til å trene opp et såkalt nevralt nett (et "dataprogram") til å kjenne igjen bilder av rimelig vanlige fornavn.

For 1930 vil vi kunne lage slike protolenker begge veier, både til den snart foreliggende 1950-tellinga og til 1910/1920.

Oktober 5, 2018

På 2.5.2018 den 13.59, Kåre Bævre skrev:

Dette utvalget på ca 400.000 bilder ble så brukt til å trene opp et såkalt nevralt nett (et "dataprogram") til å kjenne igjen bilder av rimelig vanlige fornavn.

Må dette programmet hele tiden trenes/manipuleres manuelt, eller er det også selvlærende etter en initiering?

(...jeg gleder meg selvfølgelig vilt til den dagen tilsvarende programmer kan lese alle varianter av gotisk håndskrift...😁)

Oktober 10, 2018

Programmet ble originalt trent opp på datasettet jeg nevnte. Etter at vi hadde jobbet videre en stund lærte vi det opp på ca 1.000.000 bilder. Da ble det litt bedre. Men vi har ikke satt opp noe system der det bruker ny informasjon til å bli bedre forløpende. Jeg tror ikke det ville være så veldig mye å hente på det, og det ville kreve mer utviklingsressurser enn vi har.

Det er viktig å presisere at vi ikke lærer programmet å lese bokstav for bokstav, det lærer seg bare å kjenne igjen bilder av navn det har sett mange nok eksempler på før. Dette er helt analogt til å lære seg å klassifisere bilder av hund, katt, kanin osv. I tillegg lærer det seg å se hvor i bildet navnet står, slik at vi kan klippe ut fornavn, etternavn osv.

Denne teknikken ville nok fungert like godt dersom bildene var i gotisk håndskrift. Men da må man altså først skaffe seg noen hundre bilder av "Olaf" skrevt i ulike gotiske varianter osv, og det kan ikke lese et navn/ord det ikke er trent på. Problemet er nok mest at i de eldre kidlene er rutenett og slikt mye mindre vanlig, så man kan ikke isolere enkeltnavn på samme måte. Teknikken passer best for store og relativt homogene kilder, slik som folketellingene.

Men utviklingen går rasende fort på dette området. Teknologien vi bruker har gjort radikale framskritt de siste få årene. Håndskrift er riktignok en av de vanskeligste utfrodringene. Likevel slett ikke umulig at man får teknikker man kan bruke til å lese gotisk håndskrift bokstav for bokstav, selv om akkurat den problemstillingen neppe er teknologidrivende.

Logg inn

Folketellinga 1950: Nye metoder for effektiv transkribering

Recommended Posts

Kåre Bævre

Lenke til kommentar

Del på andre sider

Torbjørn Igelkjøn

Lenke til kommentar

Del på andre sider

Torbjørn Igelkjøn

Lenke til kommentar

Del på andre sider

Nasjonalarkivet - Kristian Hunskaar

Lenke til kommentar

Del på andre sider

Torbjørn Igelkjøn

Lenke til kommentar

Del på andre sider

Kåre Bævre

Lenke til kommentar

Del på andre sider

Torbjørn Igelkjøn

Lenke til kommentar

Del på andre sider

Kåre Bævre

Lenke til kommentar

Del på andre sider

Olaf Larsen

Lenke til kommentar

Del på andre sider

Kåre Bævre

Lenke til kommentar

Del på andre sider

Logg inn for å kommentere

Hvem er aktive 0 medlemmer

Utforsk

Aktivitet

Digitalarkivet

Viktig Informasjon