Bibliotheca Arnamagnæana. Supplementum - 01.06.2013, Blaðsíða 63
Elektronisk databehandling og filologiske detailstudier
35
Hver ordform skulle desuden forsynes med oplysninger
om lemma og morfosyntaktiske forhold (msa), hvilket blev
gjort ved at indfpre dem som sákaldte attributter til word-
elementet.1 Som eksempel kan den fprnævnte substantiv-
form “heíl” tjene:
<wlemma=“hestr” msa=“xNC gM nS cA sl”>
<facs >heft < / facs>
<dipl>heft< / dipl>
<norm>hest</norm>
</w>
Heraf fremgár at lemma er hestr, at ordet er et appellativ
(xNC), at genus er maskulinum, at numerus er singularis,
at kasus er akkusativ, og at det optræder i ubestemt form
(sl).2
Alt ud over /ács-elementet er udfyldt halvautomatisk pá
grundlag af den allerede analyserede del af hándskriftet
(B), og proceduren herfor skal kort beskrives. Fprst kon-
strueredes en lemmatiseringsbase med alle ordmanifesta-
tioner fra B. Efter frasortering af de mindre frekvente for-
mer i tilfælde med homografi forpgedes basen ved gene-
rering af en række variantformer (fx (or)/fo2), (ff)/(s) og
(a>)/(o)/(9)), hvilket var npdvendigt for at sikre en mere
succesfuld halvautomatisk lemmatisering. Ved valget af va-
riantformer udnyttedes naturligvis det gennem transskri-
beringen opnáede kendskab til ortografien i A.3
Den udvidede lemmatiseringsbase anvendtes derefter
som inputfil for lemmatiseringen af A. Et script sammen-
lignede /áa-formerne i de to filer, og i tilfælde af overens-
stemmelse blev alle andre oplysninger fra lemmatiserings-
basen (dipl- og worm-niveau samt lemma og morfosyntak-
tiske koder) overfprt. Det umiddelbare resultat var bud pá
de relevante oplysninger i godt 70 % af ordformerne. For
yderligere at mindske det efterfplgende manuelle lemmati-
seringsarbejde integreredes en simpel form for disambigu-
ering vha. s0g & erstat med “regulære udtryk”.4 En del af
1 Emenderede eller supplerede ordformer lemmatiseres ikke, da de ikke
i fprste omgang pnskes inddraget i den sproglige analyse. Nár emen-
derede former kan belyse interessante forhold, inddrages de dog i en
senere analysefase.
2 Den anfprte opmærkning adskiller sig noget fra den senest anbefalede
opmærkning i Haugen (2008). For sammenligningens skyld skal et
eksempel pá opmærkning i overensstemmelse hermed anfpres:
<w me:msa=“xAV rP" lemma=“svá”>
<choice>
<me:facs>s<am>”</amx/me:facs>
<me:dipl>s<ex>va</exx/me:dipl>
<me:norm>svá</me:norm>
</choice>
</w>
Bemærk at abbreviaturer her markeres eksplicit som sádanne pá facs-
niveau.
3Et alternativ er at basere lemmatiseringen pá automatisk genere-
rede pseudonormaliserede former, hvori forskellig formvariation er
elimineret.
4 “Regulære udtryk” beskriver hvordan en tekststreng er sat sammen,
og har en meget specifik syntaks. De kan bl. a. udgpres af metategn
med specialbetydning (standardværket om regulære udtryk er Friedl
2006).
disse og andre erstatninger udfprtes sidelpbende med den
manuelle lemmatisering og korrekturlæsning.5
Ved tilfpjelse af nye lemmata og morfosyntaktiske op-
lysninger sprgede en funktion i den benyttede editor
(GNU Emacs) for indfprelse af disse for samtlige iden-
tiske ordformer i resten af filen, hvorved opmærkningen
successivt forbedredes. Efter omtrent to ugers arbejde med
korrekturlæsning og rettelser, underspgtes forholdet mel-
lem korrekte og ukorrekte former, og fremgangsmáden vi-
ste sig relativt succesrig, ikke mindst med tanke pá at ud-
gangspunktet var det helt hándskriftnære /áct-niveau. Det
er dog vigtigt at understrege at kun 500 ord kontrolleredes,
og at der udelukkende var tale om prosa, i hvilken kontekst
tallene formentlig er nogenlunde repræsentative, mens de
langtfra giver et korrekt billede af forholdene i stroferne,
hvor der frem for alt var langt flere uudfyldte former. For-
delingen mellem korrekte, fejlagtige og uudfyldte former
fremgár af tabel 2.1.
Ord/former Antal Procent
Korrekte 369 74%
Fejlagtige 65 13%
Uudfyldte 66 13%
I alt 500 100 %
Tabel 2.1: Succesrate for lemmatiseringsscripts
Til trods for den store hjælp fra den halvautomatiske
lemmatisering kom arbejdet med korrekturlæsning og ret-
telser af computerens forslag til at tage endog betydelig
længere tid end forventet. Et problem i denne forbindelse
er at arbejdets karakter uundgáeligt fprer til at man ved kor-
rekturlæsning af morfosyntaktiske oplysninger pga. træt-
hed eller uopmærksomhed læser hen over mere eller min-
dre ábenlyse fejl. Forskelligt kan imidlertid bidrage til en
minimering af risikoen for dette, og det máske vigtigste
værktpj er benyttelsen af KWIC-konkordanser. Ved at ba-
sere en del af korrekturlæsningen pá KWIC-konkordanser
over bestemte ordformer og grammatiske kategorier træ-
der forkerte opmærkninger langt tydeligere frem. Forskel-
lige programmer kan generere sádanne konkordanser, fx
det kraftige korpusværktpj IMS Corpus Workbench.6 En
5Som eksempler pá den anvendte disambiguering kan de f^lgende
tjene: 1) Erstat en given kasus med hhv. akk. efter præp. um, dat. efter
præp. frá og gen. efter præp. til. 2) Erstat inf. med finit form mellem
ok og et pluralt sb. i nom. eller et pluralt pron. pers. 3) Erstat inf. med
finit form foran þeir. 4) Erstat finit form med inf. efter en finit form.
5) Erstat 3. pers. med 1. pers. i verbalformer efter pronominalformen
ek. 6) Erstat 3. pers. med 2. pers. i verbalformer efter pronominalfor-
men þú. 7) Erstat verbalformen er med relativpartiklen, nár der efter
denne f^lger a) et finit verb. (hvis ikke et interpunktionstegn f^lger),
b) adv. + finit verb., c) præp. + finit verb. (og erstat samtidig præp.
med adv.) eller d) prop. + appell. + finit verb. 8) Erstat præp. med
adv. foran finit verb. 9) Erstat dat. pl. med dat. sg. af pron. poss. efter
et nomen i dat. sg. mask. 10) Erstat akk. med nom. af pronominalfor-
men þat foran et verb. i 3. pers. sg. 11) Erstat nom. med gen. i kon-
struktioner som Haraldr kortungr efter et sb.
6 Se www.sourceforge.net/projects/cwb.
2.4.2