Gå til innhold
Nasjonalarkivet

Bruk Historisk befolkningsregister, HBR, histreg.no som felles plattform!


Recommended Posts

Takk for mange gode innlegg. Vi setter stor pris på det arbeidet som gjøres i dugnaden og anerkjenner selvsagt de problemene dere opplever. Vi skal gjøre to endringer relativt raskt: 

- personer der dødssted er merket, skal heller ikke endres med automatisk lenking. Det innebærer at bidragsytere kan låse en side i forhold til maskinelle endringer. 

- cloudflare skal fjernes fra søkesiden nå man er innlogget. 

Vi planlegger også flere mindre endringer før vi starter på å gjøre det lettere å fjerne familierelasjoner. 

 

Litt generelt om systemet. Det er hele tiden mange forbedringer av systemet vi ønsker å gjøre. Men det tar tid og vi har begrenset med ressurser. Jeg lenker også mye manuelt så jeg har god innsikt i de opplevelsene dere har. 

 

Vi er også avhengig av maskinell lenking. Vi har nå lenket ca 27 mill. personforekomster. Hvis man manuelt lenker 100 personforekomster i timen, svarer dette til ca 125 arbeidsår. Algoritmer har laget over 90% av lenkene (hvor mye over er jeg usikker på) og vi er avhengig av disse. De aller fleste sider er laget av algoritmer. Hvis alle disse merkes som usikre, vil nesten alle sider merkes som usikre. Det er 6,4 mill personsider med minst to forekomster. Det er lett å finne personsider som er helt feil. De fleste av disse er laget med algoritmer, men ikke alle. Jeg har ikke noe presist estimat, men jeg tror ca 1% av lenkene er feil. Jeg tror vi skal klare å redusere det med ytterligere lenker. Nå har vi en så høy lenkingsandel, at en manglende forekomst hos en person oftere er feillenket til en annen person, i motsetning til å være ulenket slik det oftere var tidligere. Når vi flytter forekomsten til riktig person, fjerner vi også en feil. Markering av at sider er usikre vil også hjelpe. Da blir brukere litt mer nøye, og vi markerer som sikre lenker litt oftere. Når man er inne på en side, vil man kanskje oftere rette den opp.

 

Vi får mer erfaring og stille større krav til algoritmene. Foreløpig har vi et problem at algoritmene ikke kan se hendelsesdato på begravelser. Vi har hatt noen IT-utfordringer med den planlagte måten å få disse på. Nå har en større andel av personene blitt lenket til begravelser (hovedsakelig ved hjelp av algoritmer utført et sted som har disse kildene), slik at dette har blitt en større problem som vi må løse.  

  • Liker 3
  • Takk 1

@Lars Holden Sammenslåing av samme hendelse i ministerialbok og klokkerbok er en rutinemessig oppgave som jeg vil tro egner seg godt til å utføres maskinelt. Er dette noe som håndteres av algoritmene i dag?

  • Liker 1
55 minutes ago, Ketil Firing Hanssen said:

@Lars Holden Sammenslåing av samme hendelse i ministerialbok og klokkerbok er en rutinemessig oppgave som jeg vil tro egner seg godt til å utføres maskinelt. Er dette noe som håndteres av algoritmene i dag?

Jeg er enig i at det er en oppgave som vil egne seg for algoritmer. Det er vurdert, men ikke gjort foreløpig av flere grunner: 

- Vi har (foreløpig?) ikke tilgang til disse kildene. Det vil kreve en del arbeid både for Nasjonalarkivet og meg å få disse kildene. Det er et stort volum og mange filer.

- Det vil medføre at antall personer vil øke fra 6,4 mill til 35-45 mill. personer hvorav de fleste personene vil være en lenking mellom de tilsvarende forekomstene i klokker og ministerialbøkene. Det er 6,6 mill. personer som levde i perioden 1801-1920, så med lenking vil antallet reduseres. For at det skal monne, må vi bruke algoritmer.  Jeg er usikker på om databasen vil ble tregere med en slik stor økning. Responstiden er allerede i lengste laget. 

- Det gir ikke så mye merverdi å lenke mellom disse to forekomstene fordi informasjonen i de fleste tilfeller er den samme. 

 

For øyeblikket lenker UiT kirkebøker. Jeg vet lite om hva som er tatt med. I løpet av året skal jeg få ministerialbøkene for dåp og begravelse. Når jeg får disse, skal jeg vurdere om jeg skal bruke algoritmer til å lenke mellom disse og til folketellingene.

 

Til de av dere som lurer på folketellingen 1930. Denne blir transkribert nå med AI og i løpet av året skal vi lenke denne til en rekke andre kilder. I denne perioden har vil tilgang til flere andre kilder som vil sikre bedre kvalitet. Når den kilden skal offentliggjøres i 1930, håper jeg at vi relativt raskt også kan ha lenket denne med de andre kildene i histreg. 

53 minutter siden, Lars Holden skrev:

Jeg er enig i at det er en oppgave som vil egne seg for algoritmer. Det er vurdert, men ikke gjort foreløpig av flere grunner: 

- Vi har (foreløpig?) ikke tilgang til disse kildene. Det vil kreve en del arbeid både for Nasjonalarkivet og meg å få disse kildene. Det er et stort volum og mange filer.

- Det vil medføre at antall personer vil øke fra 6,4 mill til 35-45 mill. personer hvorav de fleste personene vil være en lenking mellom de tilsvarende forekomstene i klokker og ministerialbøkene. Det er 6,6 mill. personer som levde i perioden 1801-1920, så med lenking vil antallet reduseres. For at det skal monne, må vi bruke algoritmer.  Jeg er usikker på om databasen vil ble tregere med en slik stor økning. Responstiden er allerede i lengste laget. 

- Det gir ikke så mye merverdi å lenke mellom disse to forekomstene fordi informasjonen i de fleste tilfeller er den samme. 

 

For øyeblikket lenker UiT kirkebøker. Jeg vet lite om hva som er tatt med. I løpet av året skal jeg få ministerialbøkene for dåp og begravelse. Når jeg får disse, skal jeg vurdere om jeg skal bruke algoritmer til å lenke mellom disse og til folketellingene.

 

Til de av dere som lurer på folketellingen 1930. Denne blir transkribert nå med AI og i løpet av året skal vi lenke denne til en rekke andre kilder. I denne perioden har vil tilgang til flere andre kilder som vil sikre bedre kvalitet. Når den kilden skal offentliggjøres i 1930, håper jeg at vi relativt raskt også kan ha lenket denne med de andre kildene i histreg. 

 

Takk for grundig svar. Jeg tenker at merverdien (jfr. siste punkt) først og fremst er frigjøring av manuelt arbeid som kan brukes på mer avanserte oppgaver.

1 time siden, Lars Holden skrev:

Til de av dere som lurer på folketellingen 1930. Denne blir transkribert nå med AI og i løpet av året skal vi lenke denne til en rekke andre kilder. I denne perioden har vil tilgang til flere andre kilder som vil sikre bedre kvalitet. Når den kilden skal offentliggjøres i 1930, håper jeg at vi relativt raskt også kan ha lenket denne med de andre kildene i histreg. 

Er det tenkt på hvordan HP bør bli for de personene som er med i både FT1920 og FT1930? Slik jeg har oppfattet det, er intensjonen med HP å ha en permanent og stabil lenke til hver enkelt person, og anbefalingen har vært å bruke siste FT. For de som er med i FT1920, så er jo det hittil siste FT, og jeg har i det siste konsekvent endret HP til FT1920. Men hva når FT1930 fases inn? Beholde FT1920 som HP eller godta at det blir en endring i HP for alle som er med i begge?

  • Liker 1
1 time siden, Lars Holden skrev:

- Vi har (foreløpig?) ikke tilgang til disse kildene. Det vil kreve en del arbeid både for Nasjonalarkivet og meg å få disse kildene. Det er et stort volum og mange filer.

- Det vil medføre at antall personer vil øke fra 6,4 mill til 35-45 mill. personer hvorav de fleste personene vil være en lenking mellom de tilsvarende forekomstene i klokker og ministerialbøkene.

Det ligger jo allerede en god del Ministerialbøker og Klokkerbøker inne i databasen. Skal jeg forstå deg dithen at det ligger store mengder transkriberte kirkebøker tilgjengelig som ikke er tatt inn i databasen?

Det er er fordel å koble sammen samme person i begge kirkebøkene dersom de ligger i databasen. Dette for å hindre at samme person danner 2 profiler med 2 forskjellige familier. Men hvis det er mye redundante data som ikke er lagt inn i databasen, så må en selvfølgelig vurdere om det gir en merverdi å legge dem inn. Min erfaring er at det mange ganger kan være lettere å tolke data hvis en har 2 kilder, og ofte mangler det også data i den ene kilden.

2 minutter siden, Kjell Inge Tomren skrev:

Er det tenkt på hvordan HP bør bli for de personene som er med i både FT1920 og FT1930? Slik jeg har oppfattet det, er intensjonen med HP å ha en permanent og stabil lenke til hver enkelt person, og anbefalingen har vært å bruke siste FT. For de som er med i FT1920, så er jo det hittil siste FT, og jeg har i det siste konsekvent endret HP til FT1920. Men hva når FT1930 fases inn? Beholde FT1920 som HP eller godta at det blir en endring i HP for alle som er med i begge?

Håper uansett ikke at fødested endres til det som står i FT 1930. Der vil det gjerne stå hvilken kommune de er født i. Mens jeg (og sikkert mange andre) har lagt inn fødested iht dåpsinnføringen. Da blir det gjerne gård og bygd.

Generelt ser jeg at det som står i folketellingene er unøyaktig. F. eks. kan det stå "Hans K." i stedet for "Hans Kristian". Da blir det ikke bra å bruke dette i stedet for det som manuelt er lagt inn.

Er også redd for at familierelasjoner tas for god fisk i en FT og overkjører det som er gjort manuelt. Problemet for oss frivillige nå er at dåpsinnføringer stort sett ikke er transkribert/tilgjengelig etter 1922. Dermed klarer vi ikke å lenke opp på noen god måte frem til 1930. Det er mulig å lenke familier uten å ta med dåpen, men det blir ikke like bra.

Vet ikke helt om det finnes noen god måte å løse dette på. Det er jo en fordel å lenke familiene i FT 1930, men samtidig er det meget uheldig å "ødelegge" det som er gjort manuelt.

Logg inn for å kommentere

Du vil kunne skrive en kommentar etter at du logger inn



Logg inn nå
  • Hvem er aktive   1 medlem

    • Ellen Fakset
×
×
  • Opprett ny...

Viktig Informasjon

Arkivverket bruker cookies (informasjonskapsler) på sine nettsider for å levere en bedre tjeneste. De brukes til bl.a. skjemaoppdateringer og innlogging. Bruk siden som normalt, eller lukk informasjonsboksen for å akseptere bruk av cookies.