Liste over data inneholder dubletter

August 28, 2023

Av og til har jeg behov for å studere en kilde nærmere og henter den da ned til et regneark 50 og 50 i slengen. Det totale antall i den ned hentede fila er det samme som oppgitt i søket. Men når jeg ser nærmere på fila og sorterer litt, så ser jeg at jeg har fått en del dubletter. Det betyr som en konsekvens at det er noen poster jeg ikke har fått med meg. Hvorfor skjer dette og hva kan jeg gjøre med det?

Finn

August 28, 2023

1 time siden, Finn Karlsen skrev:

Av og til har jeg behov for å studere en kilde nærmere og henter den da ned til et regneark 50 og 50 i slengen. Det totale antall i den ned hentede fila er det samme som oppgitt i søket. Men når jeg ser nærmere på fila og sorterer litt, så ser jeg at jeg har fått en del dubletter. Det betyr som en konsekvens at det er noen poster jeg ikke har fått med meg. Hvorfor skjer dette og hva kan jeg gjøre med det?

Finn

Det er en konsekvens av at Digitalarkivet sorterer treffene etter en beregnet relevansscore, og at mange treff har samme relevansscore. Sorteringa blant treffene med samme relevansscore ser ut til å kunne variere fra søk til søk, og når du blar til ei ny side i trefflista, utfører du i praksis et nytt søk. Dermed kan ett og samme treff gå igjen på to eller kanskje også flere sider i trefflista, og - som du selv har observert - betyr det at det vil være noen treff du har gått glipp av.

Jeg tror det vil være mulig for Arkivverkets utviklere å legge inn et ekstra sorteringskriterium, f.eks. postens unike id, for å oppnå ei fast sortering av poster med samme relevansscore. Jeg skal forfatte en utviklingsoppgave på det.

I mellomtida bør du kunne unngå problemet ved å velge å sortere på noe annet enn relevans i trefflista. De ulike søkene har noen ulike alternativer i så måte.

August 28, 2023

Takk for det Kristian, da har jeg forklaringen og en mulig vei utenom. Dersom jeg bruker Finn kilde og får opp en del kilder, så skjer det samme, og der har jeg ikke noen andre sorteringsvalg. Men akkurat det er ikke så stort problem.

Finn

September 16, 2023

Jeg skal snart holde kurs i bruk av Digitalarkivet og da driver jeg å sjekker litt rundt for å se at jeg forstår hva som skjer når man gjør valg. Jeg har lenge sagt at en god måte for å se hva slags kilder som finnes for din kommune, er i bildet for Finn kilde å skrive kommunenavnet i Fritekstfeltet. Det jeg så begynte å tenke på, var om jeg nå velger kommunen under geografi, vil jeg da få forskjell, og hva bunner det eventuelt i. Jeg brukte min kommune som utgangspunkt (med tre kommunenavn) Orkdal|Orkanger|Orkland. Når jeg bruker fritekstfeltet får jeg 1034 treff. Dersom jeg velger de tre kommunene under geografi, får jeg 956, altså nesten 80 treff i forskjell. Jeg regnet med at det meste skyldes antagelig at det ene kommunenavnet også er navn for sorenskriveriet, så under fritekstsøk burde det være flere, men er det hele forklaringen? Jeg hentet derfor ned begge listene og la dem inn i Excel for å se hvor det er forskjell. Da dukker det problemet opp som jeg har nevnt tidligere i denne tråden. Det ble ca 20 sider á 50 treff på hver av dem, og jeg fikk den riktige totalsummen. Men når jeg ser på lista, inneholder den 254 dubletter. De erstatter da selvfølgelig noe som ikke er blitt med i og med at totalsummen er riktig. Men det vet jeg ikke hva er. I dette bildet har jeg ingen mulighet til å velge annen sortering, noe som løser problemet under Detaljert personsøk. Dermed blir konklusjonen min at dersom trefflista inneholder mer enn en side, kan du ikke stole på den. Den kan inneholde dublett-treff noe som igjen betyr at noe annet vises ikke. Dermed har jeg ikke mulighet til å undersøke om det er noe annet som ligger til grunn for forskjellen i søkemåte.

Jeg beklager at dette ble litt langt, og jeg forventer forsåvidt ikke noe svar, det er mest et uttrykk for en frustrasjon som jeg må bringe videre til mine kursdeltakere. Finn

September 17, 2023

Den beste søkestrategien i Finn kilde for å finne kilder om en bestemt kommune, er utvilsomt å bruke geografimenyen. Dette er mer treffsikkert enn fritekstfeltet, og det er derfor vi velger å bruke ressurser på å knytte særskilte geografiske metadata til hver kilde.

Ved å markere en kommune i geografimenyen, får man treff på alle kilder som vi har knyttet til denne kommunen med geografiske metadata. (Vi kan naturligvis ha oversett relevante kommuner for noen kilder, men da vil du heller ikke få treff i fritekstsøket.)

Fritekstsøket søker i alle metadataelementer, inkludert de geografiske metadataene. Hvis en kilde er knyttet til Orkdal kommune i de geografiske metadataene, vil fritekstsøket finne denne kilden, selv om ordet Orkdal ikke er nevnt i kildens metadata for øvrig.

Siden fritekstsøket søker i alle metadataelementer, vil fritekstsøket i mange tilfeller gi en del irrelevante treff. Ditt Orkdal-søk gir treff på alle kilder i Orkdal sorenskriveris arkiv, inkludert f.eks. panteregistre for Meldal. Søket gir også treff på kilder som måtte nevne Orkdal i merknadsfeltet, uten at kildene har direkte relevans for Orkdal, så som "Orkdal mangler" (som riktignok kan være interessant). I tillegg har du det forholdet at flere kommuner kan ha samme navn, og at et kommunenavn også kan være gårdsnavn, slektsnavn eller et vanlig ord (f.eks. berg og fjell), og vil man eliminere slike treff, må man uansett bruke geografimenyen.

Noen eksempler:

Søk på Geitastrand i geografimenyen gir i skrivende stund 785 treff: https://www.digitalarkivet.no/search/sources?m[]=1659
Søk på Geitastrand i fritekstfeltet gir i skrivende stund også 785 treff: https://www.digitalarkivet.no/search/sources?s=Geitastrand
- For de fleste av disse kildene forekommer Geitastrand kun i de geografiske metadataene, så eksempelet viser at fritekstsøket gir treff på de samme kildene som søk med geografimenyen, og at eventuelle overskytende treff i fritekstsøket gjelder kilder som av en eller annen grunn har ordet Geitastrand nevnt i øvrige metadata, men som ikke har direkte relevans for Geitastrand.
Søk på Nes (på Fosen) i geografimenyen gir i skrivende stund 821 treff: https://www.digitalarkivet.no/search/sources?m[]=1628
Søk på Nes i fritekstfeltet gir i skrivende stund 4598 treff: https://www.digitalarkivet.no/search/sources?s=Nes
Søk på Nes i fritekstfeltet, kombinert med avgrensning til Sør-Trøndelag i geografimenyen, gir i skrivende stund 840 treff: https://www.digitalarkivet.no/search/sources?s=Nes&c[]=16
- Tilsynelatende er det altså 19 kilder som er relevante for Sør-Trøndelag, som nevner ordet Nes i metadataene, uten at det har med kommunen Nes på Fosen å gjøre. En av disse er denne (https://www.digitalarkivet.no/source/167192), som har geografisk tilknytning til Nes i Akershus og Trondheim i Sør-Trøndelag.

Når alt dette er sagt:

Ja, trefflister som er sortert etter relevans, og som har mer enn 50 treff, er problematiske, fordi treffene kan bli sortert annerledes, avhengig av hvilken side i trefflista du ser på.
Finn kilde gir ingen informasjon om hvorvidt en kilde er fritt tilgjengelig, eller om den er sperret for vanlige brukere. Blant de 785 kildene som Geitastrand-søket gir treff på, er svært mange sperret. Dermed blir det ganske tidkrevende for en bruker å finne ut hvilke treff han/hun kan ha glede av.
Relevanssorteringa i Finn kilde gjør at beslektede kilder, f.eks. to kilder fra samme serie i samme arkiv, i teorien kan bli vist i hver sin ende av trefflista. Med hundrevis av treff, blir det dermed vanskelig for brukeren å få oversikt.

Mitt råd er derfor:

Bruk Finn kilde til å orientere deg i søkbare/transkriberte kilder, dvs. velg form = søkbar: https://www.digitalarkivet.no/search/sources?format=tab_ftr&m[]=1659
For skanna arkivmateriale er det bedre å bruke søkeinngangene for skanna arkivmateriale (https://media.digitalarkivet.no/), fordi trefflistene her er sortert etter arkivkatalogene (Asta-sti), slik at beslektede kilder vises i sammenheng og kontekst, fordi trefflistene viser en del tilleggsinformasjon som Finn kilde ikke viser, og fordi trefflistene er forsynt med hengelås-symbolet, som raskt viser deg hva du ikke har tilgang til.
Det er ikke intuitivt at det skal være slik, men når du får du muligheten til å undervise og demonstrere for andre, er dette etter min mening noe å trekke fram.

September 17, 2023

Takk Kristian, jeg har ikke noe problem med å være enig med deg og jeg betrakter også inngangen Skanna materiale som bedre for de fleste formål. Jeg ser også at geografisk styrte søk gir sikrere resultat enn fritekst. Poenget mitt er at dersom du får flere enn 50 treff om du søker geografisk eller på fritekst, så er det relativt stor sjanse for at du får treff dobbelt og i og med at søket alltid vil stoppe på antall treff, har du dermed mistet noen som du ikke vet hva er.

Selv om det er bakdeler med å bruke Finn kilde, er det en enkel måte å få en oversikt over alle kilder i en kommune. Under skanna materiale må du gjøre 7 søk før du får med alt. Det virker jo slik at Digitalarkivet promoterer bruk av Finn kilde og da er det jo synd at den ikke blir "reparert" slik at den er fullt ut brukbar.

I og med at jeg har litt ymse erfaring med Digitalarkivet, må jeg innrømme at bakgrunnen for at jeg begynte å sjekke om hva det var som gjorde at jeg ikke fikk samme antall treff, var at noe hadde skjedd som gjorde at ting ikke ble med når de skulle ha blitt med. Jeg lurte blant annet på om det var sikkert at kilder fra andre Arkiv enn Arkivverket endte opp riktig i alle tilfelle. Men med dublett feilen, kommer jeg aldri i mål med det prosjektet, så det har jeg gitt opp.

Men jeg kommer nok i mitt kurs til å vise at man kan få en oversikt over hvilke kilder som finnes i en kommune ved å bruke Finn kilde og geografisk søk. Det kan kanskje gi en del opplevelser av typen: Jøss, finnes det også. Men jeg vil poengtere de helt klare bakdelene som ligger der, som manglende visning av tilgang til arkivet, manglende sortering av treff på dato e.l. (har aldri skjønt hva relevant sortering er) og brødsmulesti som ikke virker og som gjør at man alltid når man skal gå inn i noe man har fra Finn kilde, må høyre-klikke på Bla i skannet utgave å velge åpne i ny fane, slik at det er lett å gå tilbake til trefflista.

Men Skannet materiale er klart favoritten.

Finn

Logg inn

Liste over data inneholder dubletter

Recommended Posts

Finn Karlsen

Lenke til kommentar

Del på andre sider

Nasjonalarkivet - Kristian Hunskaar

Lenke til kommentar

Del på andre sider

Finn Karlsen

Lenke til kommentar

Del på andre sider

Finn Karlsen

Lenke til kommentar

Del på andre sider

Nasjonalarkivet - Kristian Hunskaar

Lenke til kommentar

Del på andre sider

Finn Karlsen

Lenke til kommentar

Del på andre sider

Hvem er aktive 0 medlemmer

Utforsk

Aktivitet

Digitalarkivet

Viktig Informasjon