Gå til innhold
Arkivverket

Bruk Historisk befolkningsregister, HBR, histreg.no som felles plattform!


Kjell Inge Tomren

Recommended Posts

1 time siden, Lars Holden skrev:

Vi tror vi stort sett har klart å holde feilandelen under 1%. Men når det lages 1 mill. lenker maskinelt, blir det også en del feillenker.

Jeg tror ikke på at vi snakker om feilrate på under en prosent. Hos meg dukker det nå opp flere feilkoblinger i hver familie, så inntrykket er at vi snakker om 10% heller enn 1%. Alternativt må det være noe som gjør at algortimene lettere gjør feilkoblinger på eksisterende profiler som fra før har mange hendelser. Jeg anbefaler sterkt at dere gjør en kritisk vurdering av hvordan feilkoblingen manifesterer seg. Dere bør også vurdere om det kan legges inn sperrer som gjør at "rike" (les nesten komplette) profiler blir "fredet". Jeg er i allefall lei av å bruke mesteparten av tiden på delenking av håpløse feilkoblinger. 

Endret av Kjell Inge Tomren
  • Liker 3
Lenke til kommentar
Del på andre sider

Vi tar med oss kommentaren og ser hva vi kan gjøre. Alle maskinelle lenker blir kontrollert på forhånd på om de gir konflikt. Vi skal se nærmere på hva som kan gi konfliktene i dette eksemplet og om det skyldes en maskinell lenking.

 

Feilraten er avhengig av hvilket utvalg man gjør av personer. Måten jeg arbeider med dataene når jeg lenker manuelt, er mitt inntrykk at det er under 1% feil, mens det var over 1% i august. Store statistiske analyser når vi går igjennom alle personene i en folketelling viser også dette, ca 1% nå og høyere i august.  Andre kan se på databasen på andre måter.

 

Lenke til kommentar
Del på andre sider

Arbeidet med å splitte blir vesentlig større fordi alle navnene som ikke hører til likevel blir med i de splittede profilene. I tillegg til å gjøre selve splittingen manuelt, så må vi rydde opp i navnene. Vanligvis har vi bare interesse av å rydde opp den ene profilen og de som splittes bort blir liggende igjen med mange feil navn. Mange av de problemene jeg ser nå er av denne typen. 

Konkret forslag: Funksjonen som splitter bør bare ta med navn fra de hendelsene som er med i hver av de to nye profilene.

Lenke til kommentar
Del på andre sider

Et tips er å alltid skille ut HP eller hvert fall gjøre dette på siste utskillelsen. Da blir navnene oppdatert.

 

Jeg tar likevel med forslaget fordi det ikke alltid passer å skille ut HP.

Lenke til kommentar
Del på andre sider

36 minutter siden, Lars Holden skrev:

Et tips er å alltid skille ut HP eller hvert fall gjøre dette på siste utskillelsen. Da blir navnene oppdatert.

Dette ble uklart for meg, @Lars Holden. Resultatet av en oppsplitting blir jo to nye profiler og "gamle" HP blir med i en av dem, mens den nye får ny HP, ikke sant? Sier du at det er forskjell på om HP er haket av ved oppsplittingen eller ikke? Gjelder det da begge de nye profilene, eller bare den som får ny HP? Kan du utdype dette litt?

Lenke til kommentar
Del på andre sider

Jeg illustrerer med et eksempel. Anta en person som har 10 personforekomster skal splittes i to personer som har hhv 4 og 6 personforekomster. Man kan da velge å splitte ut de 4 personforekomstene eller de 6 personforekomstene. Etter oppsplittingen vil man uansett ha to personer med hhv 4 og 6 personforekomster og hver sin HP. Hvis man skiller ut den personen som har HP (uansett om dette er personene med 4 eller 6 personforekomster), vil navnene oppdateres slik at man slipper å oppdatere dette etter splittingen.

  • Takk 1
Lenke til kommentar
Del på andre sider

2 timer siden, Lars Holden skrev:

Et tips er å alltid skille ut HP eller hvert fall gjøre dette på siste utskillelsen. Da blir navnene oppdatert.

Det er ein variant eg aldri har prøvd og ikkje vore klar over - skal sjå på det ved neste høve.

Lenke til kommentar
Del på andre sider

11 timer siden, Aase R Sæther - Gloppen skrev:

Det er ein variant eg aldri har prøvd og ikkje vore klar over - skal sjå på det ved neste høve.

Eg var heller ikkje klar over dette. Sikkert ukjent for mange andre også. Vi burde gjere noko for at fleire vart merksame på det og endra praksis. 

Lenke til kommentar
Del på andre sider

15 timer siden, Lars Holden skrev:

Et tips er å alltid skille ut HP eller hvert fall gjøre dette på siste utskillelsen. Da blir navnene oppdatert.

Blir fødsels- og dødsdato også  oppdatert ved denne fremgangsmåten? Disse opplysningene har en tendens til å følge feil person.

  • Liker 1
Lenke til kommentar
Del på andre sider

På 9.12.2024 den 20.12, Lars Holden skrev:

Feilraten er avhengig av hvilket utvalg man gjør av personer. 

Feilraten for en algoritme bør vel regnes som andelen feilkoblinger i forhold til det totale antallet koblinger som har blitt utført i en gitt kjøring. Det blir lett å komme under 1% hvis man hele tiden regner i forhold til det totale antall profiler eller hendelser i databasen.  

Lenke til kommentar
Del på andre sider

Når man har brukt systemet en del, lærer man seg noen effektive arbeidsmåter. Jeg har ikke sett noen naturlig sted å dokumentere dette for andre. Kanskje bør vi skrive en side i bruksanvisningen med slike tips. Jeg er imidlertid usikker på hvor mange som vil lese denne. Jeg kan skrive det jeg kommer på her:

1. Delenking: fjerne personforekomsten med HP fordi navn oppdateres. Min erfaring er at årstall også blir riktig, men det hender at dette ikke fylles ut.
2. Lenking av familiemedlemmer fra familielisten på personsiden ved å trykke på "Vis lenking av familiemedlemmer". Her kan man samtidig lenke fedre, mødre, søsken og barn ved å markere i flere av kolonnene, dvs far A med far B og mor C med mor D kan lenkes samtidig

3. Når man skal gå gjennom alle familiemedlemmene i en folketelling, endrer jeg bare et siffer i URLen istedenfor å gå via flere andre sider.

 

Ang. feilrater.
Jeg er enig i at det er naturlig å si antall feil i en algoritme er antall feil lenker av alle lenkene som algoritmen foreslår. Dette er imidlertid vanskelig å anslå.
Når jeg ser på feil lenker i systemet, ser jeg på alle personene i en folketelling og  ser andel personer som har feil lenker. En vurdering av dette er i tabell 8 i statistikknotatet som man finner på førstesiden.
Men hver enkelt av oss vil bruke systemet på ulike måter og vi vil oppleve en feilrate i de personsidene vi ser på. Min opplevelse med min bruk, er at feilraten nå er under 1%. Men andre kan bruke systemet på andre måter og ha en annen opplevelse.

  • Takk 2
Lenke til kommentar
Del på andre sider

@Lars HoldenEr det mulig (og hensiktsmessig) å hindre/redusere lenking av personforekomster der den geografiske avstanden er stor? Dette virker å gjelde en stor andel av feillenkingene. Det vil si f.eks. en personside der 10 forekomster er fra samme kommune, mens en eller to forekomster er fra en annen kant av landet (vanligvis med samme fødselsdato og fornavn). Det er også mange slike personsider med feillenking der "personen" dør flere ganger eller lenge før siste oppføring i folketellinger. Dersom slik feillenking er vanskelig å unngå, bør det vel i hvert fall være enkelt å identifisere i etterkant?

  • Liker 1
Lenke til kommentar
Del på andre sider

Dette er resultatet av en algoritme som ble brukt i april-juni i år. Den ga flere millioner korrekt lenker, men også en del feillenker slik du beskriver. I tillegg til samme fødselsdato er det likheter i fornavn av type Marie Olivia og Marie Louise. Vi har unngått slike feil etter at vi oppdaget dette. Algoritmene som er brukt i høst, lenker innen samme kommune eller med samme fødested, slik at vi får med oss noen av de som flytter. De fleste av disse feilene er rettet, mest i august, men noen er der fortsatt. Den feillenkingen som ble påpekt for noen dager siden var av denne typen.

 

Den raskeste testen for å fjerne feil er flere ganger i samme folketelling eller dør flere ganger. Men det brukes også andre tester. Flytting mellom landsdeler er veldig vanlig slik at det ikke er så treffsikkert kriterie. Det er avgjort et potensiale her. Det er et av de raskeste kriteriene jeg selv bruker når jeg splitter manuelt.

  • Liker 2
Lenke til kommentar
Del på andre sider

1 time siden, Lars Holden skrev:

Når man har brukt systemet en del, lærer man seg noen effektive arbeidsmåter. Jeg har ikke sett noen naturlig sted å dokumentere dette for andre. Kanskje bør vi skrive en side i bruksanvisningen med slike tips. Jeg er imidlertid usikker på hvor mange som vil lese denne. Jeg kan skrive det jeg kommer på her:

1. Delenking: fjerne personforekomsten med HP fordi navn oppdateres. Min erfaring er at årstall også blir riktig, men det hender at dette ikke fylles ut.
2. Lenking av familiemedlemmer fra familielisten på personsiden ved å trykke på "Vis lenking av familiemedlemmer". Her kan man samtidig lenke fedre, mødre, søsken og barn ved å markere i flere av kolonnene, dvs far A med far B og mor C med mor D kan lenkes samtidig

3. Når man skal gå gjennom alle familiemedlemmene i en folketelling, endrer jeg bare et siffer i URLen istedenfor å gå via flere andre sider.

Ja, veldig nyttige tips. Jeg bruker som regel familietilhørighet som grunnlag for å lenke, så jeg bruker hele tiden nr 2. Men jeg bruker også søking på begge (alle) ektefellene i en familie og søking med og uten fødselsår for å få med så mange hendelser som mulig. Denne teknikken er også effektiv for å finne hendelser med transkriberingsfeil. Jeg har forsøkt å forklare denne teknikken i en av videoene som ligger på YouTube, men den når vel heller ikke fram til så mange. 

Siden jeg praktiser å søke uten årstall, så får jeg veldig mange treff, men da er neste steg å sortere alle treffene etter fødselsdato og så scrolle til den aktuelle perioden. 

Søk med bare fornavn og fødselsdato er effektivt for å finne dødsfallet til kvinner der jeg ikke kjenner etternavnet som gift. Men i de tilfellene dobbeltsjekker jeg med dødsannonsen der det som regel også står pikenavn. 

Lenke til kommentar
Del på andre sider

På 9.12.2024 den 15.53, Kjell Inge Tomren skrev:

Jeg har i det siste (igjen) kommet over mange feilaktige profiler som helt opplagt er sammenblanding av hendelsene til ulike personer. Jeg ser også fra statistikken at det er stor aktivitet på lenking som jeg antar er automatisk generert. Jeg klikket tilfeldig på en av de siste profilene i dag: https://histreg.no/index.php/person/pf01036475009421 og denne er vel en sammenblanding av minst fire ulike personer. 

Jeg har nevnt det før: Det er demotiverende å måtte bruke tid på å rydde opp i slikt. Er virkelig algoritmene som brukes gode nok? Er kost/nytte nøye vurdert? Hva er begrunnelse for at kvantitet er så mye viktigere enn kvalitet? 

Jeg har tidligere fått beskrivelse av at automatisk lenking gjenomføres i flere faser og at opplagte feil blir korrigert til slutt. Kunne vi ha fått informasjon her om når de ulike fasene blir iverksatt? Hva som blir gjort og hva som er planen for å rydde opp og når. Det er helt greit for meg å ta en pause til vi evt får beskjed om at automatisk lenking og tilhørende opprydding har blitt fullført. Heller det enn å til stadighet støte på disse "klysene" av feilaktige personprofiler. 

Jeg får be om unnskyldning for at jeg nå har ødelagt eksempelet ditt, @Kjell Inge Tomren. Nå har det kanskje i stedet blitt et eksempel på noen med litt mange foreldre. Ihvertfall om man går videre til mora, med halvsøsken, stesøsken og osv. Vil det komme en visning som klarer å sortere i dato for vielser og dåp, som gjør at visning blir ryddigere, både for foreldre og halv og stesøsken, eller eller må vi rydde mer enn det som er gjort i profilen for denne og mora?

Lenke til kommentar
Del på andre sider

Vi har startet en utvikling som skal gi bedre visning av familien på personsiden slik at man bl.a. ser om søsken er halvsøsken. Vi har ikke planer om annen sortering av datoer for vielser og dåp. Her er jeg litt usikker på hva som menes. Det er mange ulike formater og vi forsøker å gjenkjenne som mange som mulig.

Lenke til kommentar
Del på andre sider

Når man slår sammen Alfred og Johan Alfred risikerer men å ende opp med Alfred Johan. Kan det unngås?

Lenke til kommentar
Del på andre sider

Nei, vi har ikke tenk på dette. Algoritmen er at vi legger navnene etter hverandre og får "Alfred Johan Alfred". Så fjerner dubletter slik at det blir "Alfred Johan". Valg av hovedperson (der man kan bestemme dette) vil jeg tro påvirker rekkefølgen og hva som lagres. Men i de fleste tilfeller vil jeg tro det er krevende å ta hensyn til dette.

Lenke til kommentar
Del på andre sider

Da har vi lagt inn to av de forslagene som har kommet i denne diskusjonen:

I søket er det mulig å søke på emigrasjon, skiftrett, fangevesen, rettergang og dødsfall.
Vi har forkortet teksten i fanen fra "Histreg-... " til "HBR-....". Hvis man har mange faner oppe, er det lettere å se hva som er innholdet i hver fane uten å åpne fanen.

 

I tillegg er det nå lagt inn flere personer på listen over mulige feil, nederst på fanen for Feilhåndtering. De nye personene er stort sett personer som har flere personforekomster i folketellingen 1865. Mange av disse er krevende å splitte og maskinell delenking har ikke fungert så godt foreløpig. Fint om flere ser på denne listen.

  • Liker 3
Lenke til kommentar
Del på andre sider

Join the conversation

Du kan poste nå og registrere deg senere. If you have an account, sign in now to post with your account.

Gjest
Skriv svar til emnet...

×   Du har limt inn tekst med formatering.   Fjern formatering

  Only 75 emoji are allowed.

×   Lenken din har blitt bygget inn på siden automatisk.   Vis som en ordinær lenke i stedet

×   Ditt forrige innhold har blitt gjenopprettet .   Tøm tekstverktøy

×   You cannot paste images directly. Upload or insert images from URL.

  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...

Viktig Informasjon

Arkivverket bruker cookies (informasjonskapsler) på sine nettsider for å levere en bedre tjeneste. De brukes til bl.a. skjemaoppdateringer og innlogging. Bruk siden som normalt, eller lukk informasjonsboksen for å akseptere bruk av cookies.