Gå til innhold
Arkivverket

Bruk av o for ø i variantsøk


Leif Biberg Kristensen
 Del

Recommended Posts

På vegne av først og fremst norsk-amerikanere ville det vært ønskelig om Digitalarkivets søkefunksjon kunne akseptere o som en variant av ø. Jeg ser at søk på "Jorgen Jorgensen" ikke fungerer med variantsøk.

 

Man bør nok oppdra de samme amerikanerne til å bruke ø i norske navn, men jeg tror ikke dette er det rette stedet 🙂

  • Liker 2
Lenke til kommentar
Del på andre sider

Variantsøket fungerer dessverre ikke på den enkle måten at man kan definere o som en variant av ø. Variantsøket baserer seg på ei lang liste (for tida drøyt 59000 rader) over stavevarianter med tilhørende alias.

Her er Giorgen, Giørgen, Gjørgen, Gørgen, Hjørgen, Ijørgen, Iørgen, Jiørgen, Jjørgen m.fl. varianter registrert med aliaset Jørgen. Tilsvarende er det registrert 13 varianter med aliaset Jørgensen. For både Jørgen og Jørgensen kan man imidlertid tenke seg enda flere varianter som ikke er dekket av lista.

 

For å oppnå at søk på "Jorgen Jorgensen" skal gi treff på "Jørgen Jørgensen", må derfor "Jorgen" registreres med aliaset Jørgen, mens "Jorgensen" må registreres med aliaset Jørgensen. Men det samme måtte da gjøres på alle for- og etternavn som inneholder ø; "Torbjorn" må registreres med aliaset Torbjørn og "Sorby" må registreres med aliaset "Sørby", osv.

  • Liker 1
Lenke til kommentar
Del på andre sider

Då Digitalarkivet skifta søkjemotor var det snakk om at ein kunne bruke såkalla "fuzzy-søk". Men eksperimentet nedanfor viser ikkje kor fortreffeleg dette kunne ha vore, men viser i staden problema med alt tullet frå AMF-databasane.

https://www.digitalarkivet.no/search/persons?s=%2BJorgen~1+%2Bolsen&event_year_from=&event_year_to=&event_date=

Lenke til kommentar
Del på andre sider

20 timer siden, Torbjørn Igelkjøn skrev:

Då Digitalarkivet skifta søkjemotor var det snakk om at ein kunne bruke såkalla "fuzzy-søk". Men eksperimentet nedanfor viser ikkje kor fortreffeleg dette kunne ha vore, men viser i staden problema med alt tullet frå AMF-databasane.

https://www.digitalarkivet.no/search/persons?s=%2BJorgen~1+%2Bolsen&event_year_from=&event_year_to=&event_date=

 

Enhver feiltranskripsjon er uheldig for søkbarheten, men det er klart at mange av de "usannsynlige" feiltranskripsjonene fra AMF er spesielt vanskelige å forholde seg til med hensyn til søk.

 

De "usannsynlige" feiltranskripsjonene fra AMF er ikke inkludert i variantsøkene, bortsett fra noen helt spesielle navn som har fått mye oppmerksomhet, f.eks. https://www.digitalarkivet.no/search/persons/advanced?from=&to=&firstname=sugeborg

 

Pga. alle de "usannsynlige" feiltranskripsjonene, er "fuzzy-søk" eller "avstandssøk" egentlig et bedre verktøy enn "variantsøk", og jeg synes ikke det er så mange rare treff i ditt Jørgen Olsen-eksempel. Du får riktignok treff på etternavn som Horgen og Borgen, men det unngår du ved å bruke detaljert personsøk, hvor søkeordene kan plasseres i spesifikke felt: https://www.digitalarkivet.no/search/persons/advanced?from=&to=&firstname=Jorgen~1&lastname=Olsen

  • Liker 1
Lenke til kommentar
Del på andre sider

Skrevet (endret)

En annen søkemetode som kanskje burde vurderes er Trigram Search som ignorerer de enkelte bokstavene og vekter de tilslagene som er nærmest søkebegrepet høyest. Jeg tror Familysearch (blant annet) bruker denne algoritmen.

Endret av Leif Biberg Kristensen
  • Liker 1
Lenke til kommentar
Del på andre sider

Kanskje det er feil å skrive i denne tråden istedenfor å skrive ny, men:

 

Er det mulig å gi forslag på navn som kanskje burde vært med i variantsøk, som i dag ikke er det?

 

For eksempel, Ellen og Elen.
Kan hende det er en unntak, men jeg har en person i min slekt, som kommer opp som hver av dem i forskjellige kilder.

 

SNL sier at de er variant av samme navn, hvis det har noe å si:
https://snl.no/Ellen_-_kvinnenamn

  • Liker 1
Lenke til kommentar
Del på andre sider

  • 4 uker senere...

Det er mange personnavn som har samme rot, hvis man går langt nok tilbake.

 

I Digitalarkivets variantliste er Eli, Elin, Elen og Ellen definert som ulike navn, akkurat som f.eks. Mari og Maren er definert som ulike navn. Vi vil ikke begynne å endre på dette.

 

Det er klart at én og samme person kan være kalt både Elen og Ellen i ulike kilder. Dette er også en grunn til å betrakte "fuzzy-søk" / "avstandssøk" som et bedre verktøy enn "variantsøk", jf. et av mine tidligere innlegg.

  • Liker 1
Lenke til kommentar
Del på andre sider

8 minutter siden, Arkivverket - Kristian Hunskaar skrev:

Det er mange personnavn som har samme rot, hvis man går langt nok tilbake.

 

I Digitalarkivets variantliste er Eli, Elin, Elen og Ellen definert som ulike navn, akkurat som f.eks. Mari og Maren er definert som ulike navn. Vi vil ikke begynne å endre på dette.

 

Det er klart at én og samme person kan være kalt både Elen og Ellen i ulike kilder. Dette er også en grunn til å betrakte "fuzzy-søk" / "avstandssøk" som et bedre verktøy enn "variantsøk", jf. et av mine tidligere innlegg.

 

Det ser for meg ut til at variantsøket manglar mange "opplagte" namnevariantar som burde ha vore inkludert. Ein burde kanskje ha sett opp ein stor gul varseltrekant om at variantsøket berre fangar opp ein del av dei mest vanlege namnevariantane, og at ein må bruke trunkering m.m. eller fuzzy-søk for å få med resten.

Lenke til kommentar
Del på andre sider

Join the conversation

Du kan poste nå og registrere deg senere. If you have an account, sign in now to post with your account.

Gjest
Skriv svar til emnet...

×   Du har limt inn tekst med formatering.   Fjern formatering

  Only 75 emoji are allowed.

×   Lenken din har blitt bygget inn på siden automatisk.   Vis som en ordinær lenke i stedet

×   Ditt forrige innhold har blitt gjenopprettet .   Tøm tekstverktøy

×   You cannot paste images directly. Upload or insert images from URL.

 Del

  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...

Viktig Informasjon

Arkivverket bruker cookies (informasjonskapsler) på sine nettsider for å levere en bedre tjeneste. De brukes til bl.a. skjemaoppdateringer og innlogging. Bruk siden som normalt, eller lukk informasjonsboksen for å akseptere bruk av cookies.