Jump to content
Arkivverket

Bruk Historisk befolkningsregister, HBR, histreg.no som felles plattform!


Kjell Inge Tomren

Recommended Posts

På 30.5.2024 den 18.09, Arild Maka skrev:


Her er Karl Andersen ved en feil lagt inn som far til Holger Danielsen. Jeg mener at det mest riktige her er å slå sammen denne forekomsten av Karl Andersen med forekomster av den riktige faren (Daniel Holgersen) og ikke slå Karl Andersen sammen med andre forekomster av Karl Andersen. Dette fordi alle da lett vil se at det er en feil i kirkeboka som er rettet opp. Ved søk på Karl Andersen vil en få opp 2 navn, både Karl Andersen og Daniel Holgersen. En ser da at Karl Andersen er korrigert ett sted. Ved søk på Daniel Holgersen vil en få opp ett navn med alle kilder for Daniel Holgersen, inkludert en kilde der navnet ved en inkurie er skrevet feil. Dette forutsetter selvfølgelig at det finnes andre kilder for Daniel Holgersen enn den ene der det er ført inn feil navn.
 

Jeg må faktisk korrigere meg selv litt. Akkurat i dette tilfellet så er det 2 personer som har byttet plass, og det er lagt inn kommentarer som gjør at transkriberingen muligens rettes opp. Så akkurat i dette tilfellet kan det nok være smart å vente. Uten kommentarene, så ville det vært naturlig å transkribere slik de står oppført ettersom transkriberingen skal være kildetro.

  • Like 1
  • Thanks 1
Link to comment
Share on other sites

  • 3 weeks later...

Jeg har en feilsituasjon jeg ikke finner ut av.  Det er ikke noe kritisk, men det er en sånn irriterende ting det hadde vært greit å få fikset.  Jeg er usikker på om årsaken er feil i dataene - og da helst fordi jeg har gjort noe feil, om problemet er visning, eller en kombinasjon.

 

Tønnes Aanensen var gift to ganger og fikk barn i begge ekteskap.  De er listet opp korrekt (bortsett fra at rekkefølgen på ekteskap er feil).  Men hvis jeg f.eks. klikker på den eldste sønnen han fikk med Hanna Kristine, skjer det noe rart.

 

Nå er to av barna fra Tønnes' første ekteskap listet opp to ganger.  Liknende feil går igjen på de andre barna.

 

Som sagt er ikke dette kritisk, men irriterende.  

 

Jeg savner generelt en visualisering av hva som er grunnlaget for det som vises - særlig hvis jeg har gjort feil jeg kan rette opp selv.

Link to comment
Share on other sites

3 hours ago, Ellen Fakset said:

Jeg har en feilsituasjon jeg ikke finner ut av.  Det er ikke noe kritisk, men det er en sånn irriterende ting det hadde vært greit å få fikset.  Jeg er usikker på om årsaken er feil i dataene - og da helst fordi jeg har gjort noe feil, om problemet er visning, eller en kombinasjon.

 

Tønnes Aanensen var gift to ganger og fikk barn i begge ekteskap.  De er listet opp korrekt (bortsett fra at rekkefølgen på ekteskap er feil).  Men hvis jeg f.eks. klikker på den eldste sønnen han fikk med Hanna Kristine, skjer det noe rart.

 

Nå er to av barna fra Tønnes' første ekteskap listet opp to ganger.  Liknende feil går igjen på de andre barna.

 

Som sagt er ikke dette kritisk, men irriterende.  

 

Jeg savner generelt en visualisering av hva som er grunnlaget for det som vises - særlig hvis jeg har gjort feil jeg kan rette opp selv.

Det ser ut til å være rettet opp.

Vi skal endre programmet for visning av familier slik at det skal være lettere å forstå slike komplekse familier. Det er en større endring som først blir klart litt ut på høsten. Det er også noen sjeldne bug i dagens visning som vi ikke retter opp da koden må byttes helt.

Barn i første ekteskap vil i stor grad stå flere ganger, både med far og mor og far og stemor. Hvis barn står etter bare en foreldre, skyldes det at det ikke er registrert foreldreforhold til andre foreldre.

 

Det er ikke så lett å gi en visualisering av alle familieforholdene knyttet til en personside. Planen er å vise litt av dette i neste versjon. Men dette kan være veldig omfattende. Familieforholdene er registrert i forhold til forekomster i kilder. Hvis en person skal ha et forhold til 20 andre personer og disse i snitt har 10 forekomster, er personsiden et resultat av familierelasjonene (stort sett foreldre og barn, men som kan være av 4 ulike typer) mellom disse 200 personforekomstene. 

Link to comment
Share on other sites

Jeg skal ikke lage noen stor sak ut av dette, ettersom det kommer en nye versjon til høsten.  Men feilen, hvis jeg kan kalle det det, er ikke rettet.  Det er forskjell på visningen for barna og (alle) partnerne.  Og jeg vil ikke kalle denne familien for "kompleks".  To personer mistet sin ektefelle, han etter å ha fått barn med den første kona.  Så giftet de seg med hverandre og fikk flere barn.  Dette er jo ganske vanlig.

 

Jeg skjønner at det ikke er realistisk å vise alle koblinger for en person, men noe hjelp skulle jeg ønske vi fikk.  F.eks. å kunne åpne en komplett familiekurv med vist person og dennes familie.

 

 

Link to comment
Share on other sites

2 hours ago, Ellen Fakset said:

Jeg skal ikke lage noen stor sak ut av dette, ettersom det kommer en nye versjon til høsten.  Men feilen, hvis jeg kan kalle det det, er ikke rettet.  Det er forskjell på visningen for barna og (alle) partnerne.  Og jeg vil ikke kalle denne familien for "kompleks".  To personer mistet sin ektefelle, han etter å ha fått barn med den første kona.  Så giftet de seg med hverandre og fikk flere barn.  Dette er jo ganske vanlig.

 

Jeg skjønner at det ikke er realistisk å vise alle koblinger for en person, men noe hjelp skulle jeg ønske vi fikk.  F.eks. å kunne åpne en komplett familiekurv med vist person og dennes familie.

 

 

Jeg har registerert samme familie flere ganger og jeg tror det er litt ryddigere nå.  Men det er en bug her slik at visningen er ikke slik vi ønsker i dagens system. Vi skal endre dette systemet slik at det blir en bedre visning av dette.

Link to comment
Share on other sites

Rare dubletter ser nå ut til å ha flyttet seg til nye halvsøsken.  Men samme det.  Jeg ser fram til rettelser og ny versjon!  Inntil videre nøyer jeg meg med å få registrert mest mulig på hver enkelt person.

Link to comment
Share on other sites

  • 2 weeks later...

Nå er det laget en ny statistikk over alle lenkene i histreg. Det er en lenke til denne oversikten nederst på første siden til histreg.

 

Den viser bl.a. at nå er 75% av personene som levde i 1910 og 1920 lenket mellom disse folketellingene. Tilsvarende er 64% lenket mellom 1900 og 1910 folketellingene.

 

Antall lenker i histreg fortsetter å øke mye. Det lenkes i hele landet og over hele tidsperioden. Den maskinelle lenkingen siste måneder har fokusert på søk i Digitalarkivet basert på fornavn og fødselsdatoer i 1920 folketellingen. Det er også tatt hensyn til hvor vanlig fornavnet er, kommune og familie.

Link to comment
Share on other sites

Denne får jeg ikke til.

 

Jeg har gjort flere forsøk på å rydde opp, men jeg har i hvert fall ikke gjort ting bedre.  Denne Cornelius har nå sin mor som sin partner, og seg selv som far.

 

Hvis dette er noe som blir lettere å ordne opp i neste versjon, kan jeg vente.  Jeg kommer uansett til å gå gjennom anene mine flere ganger.

Link to comment
Share on other sites

1 hour ago, Ellen Fakset said:

Denne får jeg ikke til.

 

Jeg har gjort flere forsøk på å rydde opp, men jeg har i hvert fall ikke gjort ting bedre.  Denne Cornelius har nå sin mor som sin partner, og seg selv som far.

 

Hvis dette er noe som blir lettere å ordne opp i neste versjon, kan jeg vente.  Jeg kommer uansett til å gå gjennom anene mine flere ganger.

Det er ordnet ved å bruke fanen feilhåndtering på moren. Da fjernet jeg alle familiekoblingene på henne. Så la jeg inn de riktige på nytt. Da ble også forholdet til faren riktig.

  • Thanks 1
Link to comment
Share on other sites

På 5.7.2024 den 8.49, Lars Holden skrev:

Nå er det laget en ny statistikk over alle lenkene i histreg. Det er en lenke til denne oversikten nederst på første siden til histreg.

 

Den viser bl.a. at nå er 75% av personene som levde i 1910 og 1920 lenket mellom disse folketellingene. Tilsvarende er 64% lenket mellom 1900 og 1910 folketellingene.

 

Uten et estimat for hvor mye feillenkinger det er, sier ikke det oss stort. Joda, kanskje det ville tatt femti år om vi skulle gjøre alt manuelt - men hva hjelper det, hvis det ville tatt femti år å rette opp alle de maskinkoblede feilkoblingene også?

Det tar minutter å finne feillinkede folk. https://histreg.no/index.php/person/pd00000030402498

 

For eksempel søk på en "Martin" i Oslo, da tar det ikke mange sekundene før en finner feillenkede folk:

https://histreg.no/index.php/person/pc00000004082213

 

Han der er til og med en "kjendis", Martin Linge, men han er blitt automatisk blandet sammen med en annen Martin fra Sunnmøre som tilfeldigvis var født på samme dag, Martin Edvin Iversen.

Link to comment
Share on other sites

10 timer siden, Harald Korneliussen skrev:

For eksempel søk på en "Martin" i Oslo, da tar det ikke mange sekundene før en finner feillenkede folk:

https://histreg.no/index.php/person/pc00000004082213

 

Han der er til og med en "kjendis", Martin Linge, men han er blitt automatisk blandet sammen med en annen Martin fra Sunnmøre som tilfeldigvis var født på samme dag, Martin Edvin Iversen.

Groteske eksempel finst, utan tvil. Men i dei fleste tilfella er det ikkje så vanskeleg å dele dei (som td desse to Martin'ane). Når ein er klar over faren for forvekslingar, vil eg påstå at Histreg etter kvart er ein svært god reiskap til person-leiting. 

Link to comment
Share on other sites

Jeg er enig med siste "taler".  Og nest siste.  Det er - vanligvis - ikke så vanskelig å splitte noen som er satt sammen av mer enn én person.  Men flere av tilfellene jeg har sett, mener jeg er unødvendige.  Det kan virke som om den maskinelle lenkingen er litt for ivrig etter å slå sammen. 

 

Jeg har ingen gode eksempler nå, ettersom jeg allerede har rettet opp de feilene jeg har funnet så langt.

 

Ang. "Erik Ole Bernt Martin Andreas Bernhard Marthin Hjalmar Johan Karinius Hans Sørensen Hole Larsen Larssen Nilsen Nilssen Olsen Pedersen Hansen" - er det virkelig maskinen som har gjort dette?  Det er jo bare rør!

Link to comment
Share on other sites

Sitat

Jeg har ingen gode eksempler nå, ettersom jeg allerede har rettet opp de feilene jeg har funnet så langt.

Her er ett:

 

Martine Nilsdatter og Martine Emilie Nilsdatter ble begge født i 1851.  I tillegg var begge bosatt i Buskerud.  Det mener jeg er for tynt til å slå dem sammen til én person.

Livsløpstabell - Oversikt over kilder med personen

Nr Dato Kilde PFID Rolle Navn Fødselsdato Fødested Bosted                  
1 31.12.1875 FOLK, 0624 0625, 1875-1875 pf01052123009023   Martine Emilie Nilsdatter 1851 Eker/Haug Eker: Steenberg                  
2 01.01.1891 FOLK, Norderhov, 1891-1891 pf01052782004756   Martine Nilsdatter 1851 Hole : Hvalsstykket                  
3 03.12.1900 FOLK, Norderhov, 1900-1900 pf01037110005423   Martine Nilsdatter 1851 Bærum Ak Norderhov: Stykket                  
4 01.12.1910 FOLK, Norderhov, 1910-1910 pf01036462008543   Martine Nilsdatter 06.09.1852 Bærum Norderhov: Stykket                  
5 01.12.1920 FOLK, Norderhov, 1920-1920 pf01073776007836   Martine Hval 06.09.1852 Hole Norderhov: Bækkevold                  
Link to comment
Share on other sites

3 timer siden, Ellen Fakset skrev:

Eg har prøvd meg på nokre slike, med å fyrst splitte ut dei som openbart er same person,  td som far der mor har identisk namn på alle. Det kan ofte løyse seg uventa fort.

Edited by Aase R Sæther - Gloppen
Link to comment
Share on other sites

14 hours ago, Harald Korneliussen said:

Uten et estimat for hvor mye feillenkinger det er, sier ikke det oss stort. Joda, kanskje det ville tatt femti år om vi skulle gjøre alt manuelt - men hva hjelper det, hvis det ville tatt femti år å rette opp alle de maskinkoblede feilkoblingene også?

Det tar minutter å finne feillinkede folk. https://histreg.no/index.php/person/pd00000030402498

 

For eksempel søk på en "Martin" i Oslo, da tar det ikke mange sekundene før en finner feillenkede folk:

https://histreg.no/index.php/person/pc00000004082213

 

Han der er til og med en "kjendis", Martin Linge, men han er blitt automatisk blandet sammen med en annen Martin fra Sunnmøre som tilfeldigvis var født på samme dag, Martin Edvin Iversen.

I statistikknotatet med lenke fra førstesiden på histreg er det estimert 1% feillenker. Det er vurdert ut fra personer med flere forekomster i samme folketelling eller liste med døde, og algoritmen vurderer at dette sannsynligvis er forskjellige personer. Personer med forekomster i flere folketellinger og hvor minst en forekomst sannsynligvis er feil, vil bli talt flere ganger.

 

Også 1% feil er mer enn vi ønsker. Vi arbeider dermed med å redusere dette. Også algoritmene hjelper til å rette opp disse, både med automatiske oppretting og å vise bidragsytere personer der vi tror det er feil.

Link to comment
Share on other sites

Ja, om man bruker maskinelle estimater for å linke, da er det ikke rart om maskinelle estimater for feillenking også ser bra ut... mine stikkprøver tyder på at det er mye, mye mer enn 1% feillenking. Erik Ole Bernt Martin Andreas Bernhard osv. fra linken over, han forekommer ikke flere ganger i samme folketelling han, heller ikke er han død flere ganger, så den algoritmen tror nok han er helt grei.

For meg ser det ut som flertallet av personprofiler med mer enn ~5-10 kilder har en kilde som er feil. Noen ganger er det sikkert resultat av manuell feillenking (f.eks når en bror og en søster har blitt slått sammen, fort gjort å klikke feil sjekkboks). Og joda, det er lett å rydde opp i manuelt, det er jo det som er så flott med histreg.no, men jeg vet ikke om vi gjør det raskt nok til å holde tritt med den maskinelle feillinkingen.

Kanskje det var en ide å bruke språkmodeller som sikkerhetssjekk for automatisk lenking? Jeg har eksperimentert med å gi Llama3 og ChatGPT en oppsummert histreg-personprofil, og spurt dem om den tror det er flere personer som er blandet sammen. ChatGPT klarer i mange tilfeller å ikke bare se at det er flere personer, men avgjøre hvilke kilder som tilhører hvilken person. Og det er basert bare på mine raske uttrekk fra HTML-en i sida. Hvis man gir dem det i et mer språklig format, eller har en fintunet modell, kunne man helt sikkert fått til dette.

Og apropos det, så lurer jeg på om det finnes et XML eller JSON-api for å få ut en enkelt ID (a la pd0000...) fra digitalarkivet? Da slipper jeg å styre med kode som trekker ut HTML-elementer, og kan få ting direkte fra transkripsjonskilden.

  • Like 2
Link to comment
Share on other sites

Eneste måten å lage et estimat på antall feillenker er å systematisk gå igjennom et større antall personer. I praksis må det gjøres av algoritmer. Jeg retter en del feillenkinger manuelt hver uke, men jeg vet hvor jeg skal lete. Så jeg vet at det ikke er representativt for hele databasen. Tilsvarende vil manuelle stikkprøver lett gi helt feil svar så lenge det ikke utføres etter en detaljert protokoll.

 

Det er sikkert veldig mange algoritmer som vil fungere fint. Jeg kjenner godt til de store språkmodellene og har noen av Norges ledende forskere på nabokontorene. Hvis noen har kompetansen, arbeidslysten og arbeidskapasiteten til å arbeide med dette, tar jeg gjerne en dialog. Utfordringen er bl.a. det store volumet og at data hentes via APIer som har noe responstid.

 

Vi bruker store nevrale nett for transkribering og lenking av klausulerte data med bl.a. folketellingen 1930, 1950 og koblet til folkeregisteret. Her er det fødselsdatoer av god kvalitet i alle kilder og de fleste kilder har fødselsdatoer for flere familiemedlemmer. 

 

Det er Arkivverket som har ansvaret for og kompetansen til å svare på hvilke muligheter de har for utlevering av data.

Link to comment
Share on other sites

Et annet eksempel på overivrig lenking.  Liknende, men delvis, fornavn og samme fødselsdato.  Og feil.  Karen Birgitte døde allerede i 1951.  Dessuten finnes dødsfallet i 1951 også som søkbar kilde, med helt riktig navn.

image.png.781641fd44c9d3f37d669c63154f44fa.png

Edited by Ellen Fakset
Link to comment
Share on other sites

10 minutes ago, Ellen Fakset said:

Et annet eksempel på overivrig lenking.  Liknende, men delvis, fornavn og samme fødselsdato.  Og feil.  Karen Birgitte døde allerede i 1951.  Dessuten finnes dødsfallet i 1951 også som søkbar kilde, med helt riktig navn.

image.png.781641fd44c9d3f37d669c63154f44fa.png

Det stemmer. En lenkingsalgoritme ga for mange feil på lik fødselsdato, et likt fornavn som er vanlig og dobbeltnavn som ikke er vanlig. Algoritmen tok også hensyn til familiemedlemmer og bosted, men det var ikke nok. Stoppet med algoritmen så snart jeg så slike feil. 

  • Like 1
Link to comment
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

  • Recently Browsing   0 members

    • No registered users viewing this page.
×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.