Bibliotheca Arnamagnæana. Supplementum - 01.06.2013, Page 65
Elektronisk databehandling og filologiske detailstudier
37
1 sed -r -e :a -e '$!N; s/\n//g; ta' -e 'sI(</w>)I\l\n|g' |\
2 sed -r -e 'sI.*<me:facs>(.*)</me:facs>.*<me:norm>(.*)</me:norm>.*|\1 (\2)|' \
3 -e 'sI</?am>IIg' |\
4 sort I uniq -c |\
5 sed -r -e 's/ +?(\d)/0000\l/' -e 's/0000(\d\d\d\d\d)/\l/' \
6 -e 's/0000(\d\d\d\d)/0\l/' -e 's/0000(\d\d\d)/00\l/' \
7 -e 's/0000(\d\d)/000\1/' l\
8 sort -r |\
9 sed -r -e 's/~0000/ /' -e 's/~000/ /' -e 's/~00/ /' -e 's/~0000/ /'
Figur 2.1: Scriptet “frekvensliste”
af uoverskuelighed og besvær ved opmærkning og efterfpl-
gende spgninger.1 En anden ulempe er at spgning pá karak-
teristika som er fælles (eller forskellige) for flere graftyper
eller -klasser i bedste fald er meget vanskelig, hvilket ikke
blot er et teknisk, men ogsá et metodisk problem. Endelig
má det bemærkes at opbygningen af et simpelt beskrivel-
sesapparat og justering af klassificeringerne i opbygnings-
fasen er tilsvarende vanskelig — man skal sá at sige pá for-
hánd have klarlagt en meget stor del af den palæografiske
variation.
2.4.3 Analysefasen
Den stprste fordel ved at basere analysen pá en opmær-
ket tekst er at forskellige informationer let lader sig ek-
strahere i analysefasen. Enhver der manuelt har excerperet
en længere tekst for et eller flere givne træk, ved hvor tids-
krævende et sádant arbejde er, og teksten skal ikke være
ret lang fpr det reelt er hurtigere at foretage en indledende
tekstopmærkning og basere excerperingen pá denne. En
excerpering der baserer sig pá en elektronisk opmærket
tekst, kan betragtes som en “on the fly” excerpering, og en
stor fordel ved en sádan, og det som mest udpræget ad-
skiller tilgangen fra traditionel manuel excerpering, er at
præmisserne hele tiden kan ændres. Finder man ud af at et
nyt træk er interessant at underspge, er det blot et spprgs-
mál om at ændre kriterierne for programmet som udfprer
excerperingen. Man behpver ikke begynde forfra med en
genlæsning af kilden.
Alle lag i den samlede analyse har udnyttet den elektro-
niske opmærkning, men graden af efterfplgende manuel
bearbejdning har varieret afhængigt af graden af overens-
stemmelse mellem opmærkning og analysernes perspektiv.
Da XML-filen indeholder en komplet morfosyntaktisk
opmærkning af samtlige ord, lader en fuldstændig morfo-
logisk beskrivelse af MskMS sig forholdsvis enkelt gene-
rere, og i underspgelsen af sável forskelle mellem de to skri-
vere som den interne variation hos den enkelte skriver ud-
nyttes den morfosyntaktiske opmærkning i vid udstræk-
ning. Den morfosyntaktiske opmærkning danner naturlig-
1 Det vil til n0d kunne gá ved unders0gelse af et enkelt hándskrift, men
en given opmærkningspraksis skal meget gerne kunne appliceres pá et
stprre tekstkorpus, fx ved opbygningen af en palæografisk database.
vis ogsá grundlag for de detaljerede morfologiske oversig-
ter i kapitel 5.
Et eksempel pá hvorledes dette kan finde praktisk an-
vendelse, skal her anfpres. Forudsat at teksten er opmærket
efter retningslinjerne i Haugen (2008), kan en frekvensli-
ste over eksempelvis alle mediopassive præteritumformer
i 3. pers. sg. genereres pá fplgende vis pá et GNU/linux
kompatibelt system:
egrep 'tPT.*?p3 nS vR' I frekvensliste
Fprst findes alle linjer som indeholder den korrekte
grammatiske information med egrep-kommandoen, og
resultatet sendes ved hjælp af en pipeline (I) videre til kom-
mandoen frekvensliste, der er et selvstændigt script,
som kan genbruges i lignende tilfælde. Dets indhold er
fremgár af figur 2.1 (linjenumre indsat for overskuelighe-
dens skyld).
En s0g & erstat funktion sprger i linje 1 for at hvert
word-element stár pá hver sin linje. Linje 2 fjerner deref-
ter alt andet end facs- og wom-niveauet og anbringer det
sidste i parentes, inden alle markeringer af abbreviaturer
fjernes i linje 3/ Derpá sendes resultatet videre til sort
kommandoen (linje 4), der sorterer samtlige tilfælde in-
den uniq -c fjerner alle dobbeltposter og angiver antal
forekomster for hver manifestation. Linje 5-7, der kunne
skrives mere elegant, sprger derefter for indsættelsen af et
korrekt antal nuller foran de af uniq -c genererede talan-
givelser, sáledes at alle talangivelser indeholder lige mange
cifre. Dette er npdvendigt for at sort -r kommandoen,
der sorterer listen i omvendt rækkefplge, kan producere en
korrekt frekvensordnet liste inden de indsatte nuller fjer-
nes igen i linje 9. Det samlede resultat bliver en liste som
den efterfplgende:
38 letzc (lézk)
13 þottiz (þóttisk)
13 fýnðiz (sýndisk)
12 barfc (barsk)
2 Fjernelse eller omformatering af andet, fx markeringer af utydeligt læ-
ste grafer, kan naturligvis inkorporeres pá tilsvarende vis.
2.4.3