Gå til innhold
Arkivverket

[#55369] Tegnsett i Kyrre


Gjest Geir Thorud
 Del

Recommended Posts

Gjest Geir Thorud

Langt ute i den tekniske delen i Kyrre (kap 6) kan man lese at det kun er tillatt å bruke tegn som finnes i UTF-8 (ISO 8859-1) standarden. Dessuten står det om bruk av diverse tegn på side 19-20.Det finnes flere vanlig brukte program der det ikke er mulig (eller vanskelig) å hindre den som registrerer å skrive inn tegn som ikke tillates av Kyrre. De som registrerer må derfor være klar over at visse tegn ikke er tillatt, og bør ha en mulighet til å sjekke hva som er lovlig. Det bør publiseres en oversikt over lovlige tegn, OG denne begrensningen må i neste versjon nevnes i tilknytning til det som nå står på side 19.Et tegn som forekommer i kildene er U med en horisontal strek over, denne er ikke tillatt ihht Kyrre (8859-1), og bør erstattes med vanlig U. (Det kan sikkert diskuteres om streken i originaler er horisontal eller skrå (aksent), men resultatet bør bli det samme. Jeg har i alle fall fått inn en avskrift der horisontal strek er brukt.)Et annet tegn som har vært nevnt i tema 40140 er ß som bør erstattes med ss. Videre bør 'brøk tegnene' for 1/4, 1/2 og 3/4 ikke brukes, skriv tre tegn isteden - som jeg har gjort her.Et tegn som er lovlig ihht Kyrre er O med aksent over (Ó), med betydning Ø. Det er et spørsmål om ikke denne som regel bør erstattes av en vanlig ø - i alle fall i norske navn. Dette vil lette søking. Hva med O med tødler (Ö) med mindre navnet som skrives er svensk, tysk etc ?Videre er tegnene [ og ] reservert for å markere kommentarer - bør da slike tegn i originalen erstattes av vanlige parenteser () ?Det er antakelig flere av tegnene i 8859-1 som man bør være restriktiv med bruken av, pga søking.Synspunkter mottas.(Verden har forandret seg, for 20 år siden måtte vi slåss med Amerikanerne for å få inn æ,ø og å i datastandarder (jfr dog fremdeles web-adresser uten æ,ø og å i praksis) - nå må vi jobbe med å hindre bruk av eksotiske tegn.)

Lenke til kommentar
Del på andre sider

  • 1 måned senere...
Gjest Asbj. Arnestad

Bare en liten digresjon. UTF-8 er ikke det samme som ISO 8859-1. Riktignok er alle tegnene i ISO 8859-1 også i UTF-8, men ikke omvendt.ISO 8859 kalles ofte for ANSI og Windows benytter en utvidelse av Latin-1-tegnsettet i ISO-standarden (= ISO 8859-1). Windowstegnsettet/utvidelsen kalles Windows Code Page 1252.En oversikt over tegnene og tallkodene i ANSI/UTF-8/Windows Code Page 1252 kan du finne her Lenke. Filen er egentlig en Excel-fil lagret som html.Mvh. Asbjørn

Lenke til kommentar
Del på andre sider

Gjest Geir Thorud

Takk for den korreksjonen - jeg må nok innrømme at det er en god del år siden jeg har studert standarder for tegnsett. Da blir det feil å si at U med horisontal strek over ikke er tillatt ihht Kyrre. Med unntak av det som står på side 19-20, finnes vel ikke det tegn som ikke er tillatt, gitt at Unicode har det meste. Men med mindre det finnes noe samisk i kirkebøkene er det vel et spørsmål om det er lurt å gå utover tegnene i 8859-1, det er neppe lurt å ukritisk benytte hele spekteret av tegn som kan knottes inn via tastaturet.

Lenke til kommentar
Del på andre sider

  • 4 måneder senere...
Gjest Bjørnar Iversen

Hei. Hvordan er det med vanlige parenteser? Er det lov å bruke, og hva med søkbarheten når disse blir brukt i forbindelse med stedsnavn? I Kråkstad 1880-92 er det massevis, og man skal jo gjengi kilden ordrett. Lenke

Lenke til kommentar
Del på andre sider

Gjest Geir Thorud

Hei.Parenteser er lovlige tegn, og så lenge Kyrre ikke sier noe spesielt om slike, må man vel skrive det som står i boka.Regner med at 'Kristiania (Grønland)' er et av eksemplene, og det finnes mange lignende eksempler i de fleste bøker jeg har sett. Her vil vel ikke parentesene gjøre noe fra eller til mht søkbarhet da jeg antar at man søker på enten Kri... eller Grø... og man må bruke 'inneholder' for å finne Grønland, med eller uten parenteser. Men står parentesen helt i begynnelsen av feltet vil den ha betydning.Verre er det med sorterte registre i f.eks papirutskrifter. Jeg har implementert en meget enkel teknikk som tillater sortering på både Kristiania og Grønland - selv om de står i samme felt, med eller uten parenteser - eller andre tegn/ord (f.eks i, under, på, osv og Kyrres spesialtegn @ og %) som finnes i feltet, som det ikke skal sorteres på. Man kan sogar sortere på flere ord samtidig. Kyrre er velkommen til å adoptere denne teknikken - den er et must for de som lager papirutskrifter slik vi gjør.Det finnes fremdeles mange svorne data skeptikere som har bruk for utskrifter, den som skriver av får et håndfast bevis på jobben som er gjort, og det finnes flere foreninger som selger slike utskrifter - selv om det blir dyrt.

Lenke til kommentar
Del på andre sider

Gjest Bjørnar Iversen

Hei. Selv om parenteser er lovlige tegn i Kyrre, og det er lagt inn i Augustus ordrett etter kirkeboken, vil jo søkbarheten bli forringet når parentesen står i begynnelsen av et felt. Det er ikke alle brukerne som er like flinke til å søke kreativt, og de vil jo ikke få opp treff der parentesen står og 'sperrer'. Derfor mener jeg at registratorer bør ta hensyn til dette når man registrer. En parentes fra eller til betyr vel ikke så mye for sammenhengen i teksten. Jeg har gjort noen forsøk på søk i Augustus, og det bekrefter problemet med parentesen. Da er spørsmålet om man skal være helt kildetro, eller tenke på brukerne av databasen i fremtiden.

Lenke til kommentar
Del på andre sider

Gjest Geir Thorud

Parentesene kan selvsagt skape problemer hvis man søker med ”begynner på”, men Augustus ser ut til å ha ”inneholder” som standard måte å søke på, og da er vel ikke parenteser i begynnelsen et problem? Standardmåten er vel den minst kompliserte å bruke, så da er jeg ikke sikker på om jeg ser problemet – i Augustus sammenheng.

Lenke til kommentar
Del på andre sider

  • 1 år senere...
Gjest Geir Thorud

En liten kuriositet er beskrevet i tema 72377 der presten har skrevet en kirkedag på gresk og med greske bokstaver. Jeg håper man ikke faller for fristelsen til å registrere de greske bokstavene - jfr. (3) over.

Lenke til kommentar
Del på andre sider

 Del

  • Hvem er aktive   0 medlemmer

    • Ingen innloggede medlemmer aktive
×
×
  • Opprett ny...

Viktig Informasjon

Arkivverket bruker cookies (informasjonskapsler) på sine nettsider for å levere en bedre tjeneste. De brukes til bl.a. skjemaoppdateringer og innlogging. Bruk siden som normalt, eller lukk informasjonsboksen for å akseptere bruk av cookies.