Jump to content
Arkivverket

Oppdatering av digitalarkivets servere om natten


Recommended Posts

Jeg har tidligere erfart problemer med søk om natten, og  jeg fikk da tilbakemelding om at skyldtes en oppdatering av servere som startet ca. kl. 02.00 hver dag. Jeg  vet at dere i forbindelse med separasjon og oppgraderingen av arkivverket og digitalarkivets nettsider også oppgraderte servere i maskinparken. Er det fortsatt slik at man kan få de samme problemene i oppdateringsperioden om natten? Jeg spør fordi jeg har fått en underlig respons noen ganger i det siste, ved bruk av Avansert personsøk om natten. Hvis det fortsatt er tilfelle, hvor lenge varer vanligvis oppdateringen?

Edited by Olaf Larsen
Link to post
Share on other sites
Espen Tønnessen

Det som ble rettet 6 juni er første steg i den nattlige prosessen, og den tar ca. 10 minutter:

Fordi vi håndterer så mange forskjellige datastrukturer har vi en egen databasetabell som bygges opp hver natt basert på en ganske komplisert spørring. Uten å gå i detalj ble de unike identifikatorene i denne tabellen endret hver natt, og alle treff i Finn kilde og i søkeinngangene for skanna materiale ble feil inntil søkemotoren ble ferdig med å indeksere tabellen med nye identifikatorer. I tillegg hentet vi dataene fra denne tabellen for visning i trefflister osv.

Vi endret denne tabellen slik at vi bruker de kildeid'ene som vi allerede bruker som ny, unik nøkkel mye av databasen. Vi henter også informasjonen i trefflistene fra de tabellene som inneholder dataene i utgangspunktet, og altså ikke denne søketabellen. Så om søkemotoren ikke er oppdatert i forhold til søketabellen, så vil det ikke ha noe så si for treffene lenger.

 

Andre steg i prosessen har kanskje blitt mer avansert, her har vi mulighet til å gjøre forbedringer også.

Enkelt og avansert personsøk gjør søk i en søkeindeks i søkemotoren basert på en søketabell i databasen. Grunnen til at vi har en søketabell for persondata er at vi har hele 130 forskjellige datastrukturer (innholdstabeller i databasen). Kirkebøkene utgjøre 12 av disse forskjellige datastrukturene. Søkemotoren ha en entydig datastruktur å forholde seg til. Søketabellen inneholder 31,5 millioner rader. Sist vi kjørte gjennom alle personforekomster i denne tabellen tok det 4 døgn. Vi klarte å holde oss under ett døgn før vi introduserte toperson-søket. Hver gang vi gjøre en endring i dataene, f.eks endrer metadata eller leser inn nye data legges kildeid'en inn i en "arbeidsliste" som den nattlige prosessen bruker for å vite hva den trenger å gjøre. Hver natt oppdaterer vi kun de personforekomstene/radene som tilhører de kildeid'ene som står i arbeidslista. Hvor lang tid dette tar varierer med hvor mange kildeid'er som skal behandles. Når dette er ferdig begynner søkemotoren å indeksere tabellen.

 

Nå som vi har gitt muligheten til å skru av variantsøket har vi laget to sett med søkeindekser. På grunn av datamengene er disse søkeindeksene delt opp (partisjonert) i 6 partisjoner. Det er i praksis 12 indekser i søkemotoren som skal oppdateres samtidig. Siden vi har 24 cpu-kjerner (4x6) på maskinen som kjører søkemotoren, har vi fremdeles 12 cpu-kjerner igjen til å utføre søkene mens oppdateringen av søkeindeksene pågår. Når en søkeindeks er ferdig indeksert, tas den i bruk i søk. Men oppdateringen av søkeindeksene blir ikke ferdig samtidig. En fare ved det er at hvis en partisjon av indeksen med variantsøk ikke er ferdig samtidig med samme partisjon uten variantsøk, kan du få helt forskjellige treff med og uten variantsøk (som skyldes noe annet enn at variantsøket er av eller på). Derfor har vi satt opp søkemotoren til å kun iverksette de nye partisjonene etterhvert som både indeksen med og uten variantsøk er ferdig indeksert.

 

Vi driver stadig å retter opp allerede publisert materiale ved å lese inn dataene på nytt (og derfor er det gamle digitalarkivet (gda) svært, svært utdatert, for der er det ikke gjort korrigeringer i materialet på minst 6 år). Fra det tidspunktet dataene er oppdatert , f.eks. kl. 1300 på dagen, og til alle søkeindeksene er rotert på natta, la oss anta ca. 0400 på natta, vil det være forskjeller mellom søk og visninger. Fra kl. 0200 og til alle indeksene er rotert (la oss fremdeles anta ca. 2 timer +/-), vil det kunne være forskjeller mellom søk og treffliste, fordi trefflistene baserer seg på innholdet i søketabellen. 

 

Oppsummert: Det du opplever er ikke relatert til de rare treffene som forekom før 6 juni. Tiden det tar å oppdatere søkemotoren varierer. Det vil alltid være noen uoversenstemmelser mellom søk og data på kilder som blir lagt ut på nytt.

 

Når det er sagt, hvis du opplever uoverenstemmelser vil det være fint om du legger ut noen detaljer så vi kan få undersøkt eksakt hva som er årsaken.

 

Link to post
Share on other sites

Tusen takk for et veldig detaljert svar, Espen, det er jo store mengder data som skal oppdateres. Jeg skal følge opp med en tilbakemelding hvis jeg merker noe uvanlig. Forøvrig var også søk i skannede kilder (hvilke husker jeg ikke) påvirket den ene gangen, søkemotoren ville ikke finne resultater hverken på fylke, sogn eller fritekst, selv om jeg visste at de lå der. Dette var kort tid etter siste oppdatering av søkesidene, så jeg antok at årsaken var knyttet til det.

Jeg har omsorgen for en gammel mor, og døgnrytme er noe jeg har sluttet med for lenge siden, så det hender det blr endel nattlige besøk i arkivet. :-)

Edited by Olaf Larsen
Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue.