Effekten av kunstig intelligens på slektsforskning

Juli 13, 2023

Hei.

Savner diskusjon på norske nettsider (her, Slekt og Data eller NSF) om effekten av kunstig intelligens på slektsforskning.

Nedenfor er et helt ferskt foredrag av den vel anerkjent profesjonell slektsforskeren James Tanner.

Noe som har noen synspunkt på dette ?

Men se gjerne hele innlegget til James Tanner, før for fastlåste standpunkt.

Endret Juli 13, 2023 av Dag Arne Danielsen

Juli 15, 2023

"Søppel inn - søppel ut", ja. Det er vel hovedpoenget her. Jeg har sett flere beskrive AI (eller KI) som avansert klipp og lim. Den kunstige intelligensen klipper ut det den finner på nettet om et eller annet, og limer det sammen igjen i en ny sammenheng. Men gjennomfører den også en kvalitetssjekk av denne informasjonen som den bruker? Det er det vel fortsatt mennesker som må gjøre? Det en kanskje kan frykte, er at mange vil anta at det den kunstige intelligensen spyr ut er riktig, og ikke gjøre arbeidet selv med å sjekke denne informasjonen. I så fall vil kunstig intelligens kunne bidra til å spre feilinformasjon, også i slektsforskning. Omtrent 16 minutter inn i videoen påstår Tanner at "artificial intelligence based handwriting recognition" nå har "surpassed" en gruppe frivillige mennesker. Men hvem? AMF? Som kjent varierer mennesker veldig med hensyn til "handwriting recognition". 😄

Endret Juli 15, 2023 av Ivar Kristensen

Juli 15, 2023

Historisk befolkningsregister (HBR) har mange rare koplingar, truleg fordi koplingane er laga av maskiner. Dermed kan ein heller ikkje stole på informasjon derifrå, men må undersøkje kvar enkelt kjelde og vurdere om dette er same person.

Endret Juli 15, 2023 av Torbjørn Igelkjøn

Juli 16, 2023

Quote

Den kunstige intelligensen klipper ut det den finner på nettet om et eller annet, og limer det sammen igjen i en ny sammenheng. Men gjennomfører den også en kvalitetssjekk av denne informasjonen som den bruker? Det er det vel fortsatt mennesker som må gjøre? Det en kanskje kan frykte, er at mange vil anta at det den kunstige intelligensen spyr ut er riktig, og ikke gjøre arbeidet selv med å sjekke denne informasjonen.

Min forståelse av hvordan kunstig intellegens kunne påvirke slektsforskning er at den ikke er "farligere" enn søkbare transkripsjoner her på Digitalarkivet eller Nasjonalbiblioteket på nett. Hvis man stoler blindt på transkripsjonen, og ikke sjekker originakilden kan man allerede komme kraftig ut å kjøre. Søkemulighetene er både til hjelp og til hinder, men personlig er jeg riktig glad for at jeg ofte slipper å søke gjennom hvert eneste bilde av hver eneste kirkebok eller avisside etc. ved å stirre på dem, i håp om å finne noe som kan være en slektning. Ingen av oss har uendelig med tid.

Eksemplene i James Tanner's foredrag viser at det er lett å lage noe som ser flott ut uten nødvendigvis å være riktig, men det er da veldig gammelt nytt... jfr. Jesu forskjellige ættetavler i bibelen, og romerenes sprikende historier om hvor de kom fra.

Tyding av håndskrift er absolutt noe en AI kan bli veldig god til. Det er sannsynlig at den kan bli bedre enn et godt trenet menneske blant annet fordi den ikke blir trett eller ukonsentrert, men også fordi den vil kunne lære av så mange kilder, og "huske" alt, og fordi den kan oppfatte fargeforskjeller bedre enn det menneskelige øyet. Jo smalere bruken av et dataprogram er, desto større sjanse er det for at det kan overgå mennesker i yteevne. Det er uansett ikke tvil om at det allerede finnes håndskriftstydingsprogrammer som er bedre enn svært mange mennesker. Denne videoen forklarer hvordan de gjør det posten i USA for tiden, hvor de fortsatt har mennesker til å tyde de vanskeligste adressene. Maskinlesing tar seg nå av 99% av posten (men mindre og mindre er selvsagt håndskrevet), godt trenede mennesker sammen med AI klarer 50% av de resterende. https://blog.adafruit.com/2022/08/15/how-the-us-postal-service-reads-terrible-handwriting/ Hvis menneskers skulle ha lest all posten, ville de sannsynligvis ha introdusert mer enn 1% sorteringsfeil blant de 99 prosentene som maskiner i dag tar seg av. Og man forventer at AI'en for å lese adresser stadig blir bedre. Men at noe er eller blir tilgjengelig, betyr ikke at Nasjonalbiblioteket automatisk får oppgradert sin treffsikkerhet på skrifgjenkjenning like raskt.

Veldig mange av dagens unge klarer ikke å lese håndskrevet løkkeskrift selv om jeg, som er vokst opp med det, synes håndskriften er fin og tydelig. Gotisk håndskrift er selvsagt enda vanskeligere, for ikke å snakke om blandingene av løkkeskrift og gotisk. Terskelen for å bli god til å tyde håndskrift er høy, og for en del slektsgranskere er det uoverkommelig. Det er en hobby som mange starter med i godt voksen alder, når syn og hukommelse og læringsevne allerede er noe svekket (dvs. over ca. 40).

Eksisterende AI som ikke er spesialskrevet for genealogiske data er lite egnet til å fortelle oss hvordan A er i slekt med B. Søkermotorer i browsere som sveiper over hjemmesider med folks familietrær, kan ofte gi oss indikasjoner på hvor vi bør starte å lete, er AI, men de vekter ikke kvalitet. Chatbot'er og chatbotlignende søkemotorer som gjetter på hva du vil ha, og finner opp data den ikke klarer å søke fram, har ingen misjon i slektsforskning. Ja, det er fare for at de "forurenser" farvannet for alminnelige søkemotorer, hvis falske data legges ut på nettsider. Dette problemet vil nok bli større med tiden. Men det er neppe til hinder for at man fortsatt kan ha god hjelp av mere spesifike søk i aviser o.l..

Om en AI teknisk sett kan designes for å håndtere skrivefeil og feilopplysninger om fødselsdatoer, fødselsår like bra som et menneske? Kan den avgjøre, bedre enn et menneske, om Anne Marie Eng i 1780 var den samme som Anne Engstuen i 1801 eller Anne Marie Knuden i 1810? Den kan programmeres til å vekte opplysninger, til å ta med opplysninger om alle kandidater, og til å beregne sannsynlighet for at de tilsynelatende to eller flere personene er den samme. De beregnede sannsynlighetene vil på sikt kunne gi mer pålitelige svar enn det vi gjetter oss til, ut fra samme materiale. En godt designet genealogi AI ville for eksempel raskt kunne ta med i bektraktning hva den visste om utbredelsen av et navn (vanlig/uvanlig/indikasjon på sosial klasse/knyttet til bestemt familie eller geografisk område), og ikke minst omtrent hvor mange personer som er forsvunnet fra kildematerialet. Dette er noe jeg strever med å få et forhold til, men som jeg vet er viktig. Forskjellen mellom registrert antall innflyttere og døpte barn på den ene siden, og antall døde og antall utflyttede er langt fra null i et distrikt. Lenger tilbake vil den kunne si noe om forskjellen mellom forventet befolkning i området, og faktisk nevnte personer.

Kommersielle produsenter av genealogi-AI vil ha problemer med eierskap til data. De kan ikke bare høste av hva som er lagt ut bak betalingsmurer, eller data som eier sette begrensninger på spredningen av. Man kan også spørre seg om de ikke vil være fristet til å prioritere det som ser spennende ut, fremfor hva som statistisk sett er mer sannsynlig.

Dersom det kom i stand et samarbeid mellom f.eks. de nordiske universitetene kunne man tenke seg at det var mulig å lage en AI som vurderte alle offentlige, digitaliserte kilder opp mot hverandre, og hvor man kunne se hvordan dataene ble vektet. Dette ville kanskje til og med være et interessant prøveprosjekt for AI og beslutningstagning, siden slektsforskning er et nokså begrenset felt, hvor en god del beregninger kan etterprøves ved bruk av mitokondrie-DNA.

Det som AI basert på offentlige kilder ikke kan gjøre, er å inkorporere personlige meddelelser og opplysninger fra private brev, fotografier etc. Som vi alle vet er det mye familietradisjon som ikke holder vann. Det gjelder også opplysninger fra primærkilder: Det hender folk pyntet på sannheten, eller ikke minst husket feil. Samme historie fra to søsken kan være ganske forskjellige... Men det ville være galt å fullstendig utelukke private dokumenter og muntlige overleveringer fra våre vurderinger om sannsynligheter av slektskap. Dersom man ikke har private kilder, slik det ofte er tilfelle for aner som døde for en god stund siden, eller for personer i sidegrener av slekten, vil en god AI på sikt kunne gjøre en bedre jobb enn et alminnelig menneske.

Så min konklusjon er at AI kan ha en misjon i slektsforskning, men at man må se på hva slags AI som brukes, og selv sjekke dataene mot kilden hvis mulig. Akkurat som i dag. AI brukt med vett kan gjøre letearbeidet lettere, fordi raske søk ofte gir oss en tråd vi kan nøste videre fra.

Juli 19, 2023

Takk Ivar, Torbjørn og Inger for veldig interessante innlegg!

Som Inger sitt eksempel fra posten i USA, er her et om folketellingen i USA;

https://www.ancestry.com/corporate/blog/ancestry-proprietary-artificial-intelligence-powered-handwriting-recognition-technology

Helt enig i konklusjon til Inger, man må se hva AI kan brukes til og som er en nyttig bruk.

Og slik har det alltid vært med innføring av ny teknologi.

Juli 19, 2023

Det er veldig mye "hype" rundt AI/KI nå for tiden. Man skal være for fremskrittet, og ikke en bakstreversk ludditt. Greit nok, men jeg tror det er sunt med litt skepsis overfor nye skinnende ting, og jeg tror vi fortsatt bør satse på å foredle vår naturlige intelligens, sunn fornuft og kritisk tenkning.

Logg inn

Effekten av kunstig intelligens på slektsforskning

Recommended Posts

Dag Arne Danielsen

Lenke til kommentar

Del på andre sider

Ivar Kristensen

Lenke til kommentar

Del på andre sider

Torbjørn Igelkjøn

Lenke til kommentar

Del på andre sider

Inger Hohler

Lenke til kommentar

Del på andre sider

Dag Arne Danielsen

Lenke til kommentar

Del på andre sider

Ivar Kristensen

Lenke til kommentar

Del på andre sider

Join the conversation

Hvem er aktive 0 medlemmer

Utforsk

Aktivitet

Digitalarkivet

Viktig Informasjon