Bibliotheca Arnamagnæana. Supplementum - 01.06.2013, Blaðsíða 64
36
Indledende teoretisk og metodisk diskussion
grundlæggende ulempe ved dette og lignende korpusværk-
tpjer i forbindelse med korrekturlæsning er at der forud-
sættes en konvertering af teksten til et binært format. Hver
gang teksten ændres, má den sáledes reimporteres i kor-
pusværktpjet, og selvom dette kan gpres automatisk med
scripts, er det noget uhensigtsmæssigt. Mens de págæl-
dende korpusværktpjer er særdeles velegnede til behand-
ling af mere eller mindre “færdige” tekster, er de mindre
egnede til tekster som hele tiden ændres i korrekturfasen.
I praksis kan det derfor ofte betale sig at skrive egne
programmer, som lettere lader sig implementere i kor-
rekturarbejdet kombineret med et godt, programmerbart
tekstredigeringsprogram som GNU Emacs.1 At skrive en
række funktioner som muliggpr generering af KWIC-
konkordanser og lignende direkte fra GNU Emacs, er in-
gen vanskelig opgave, og den stprste fordel ved dette er
den nære integrering i arbejdsprocessen. Fra de genererede
konkordanser kan man eksempelvis hoppe direkte til det
págældende sted i XML-filen som skal rettes, rette fejlen
og generere en ny KWIC-konkordans uden behov for re-
indeksering af teksten.
Pá trods af sádanne hjælpeværktpjer má det kraftigt un-
derstreges at der i fremtidige projekter af lignende karakter
má afsættes særdeles lang tid til den empiriske del af under-
spgelsen, selvom processen givetvis vil lettes i takt med at
stadig mere lemmatiseret tekst finder vej til Menotas tekst-
bank. Dette vil forbedre lemmatiseringsbasen, som danner
hele grundlaget for den halvautomatiske lemmatisering,
hvad enten lemmatiseringen udfpres pá grundlag af egne
scripts (som ved arbejdet med nærværende afhandling) el-
ler ved hjælp af The Menota Lemmatisation Assistant, der
pá nuværende tidspunkt befinder sig i betafasen af sin ud-
vikling.
Med lemmatiseringen og den morfosyntaktiske op-
mærkning var grundlaget ogsá lagt for den efterfplgende
analyse. For at lette den (orto)grafiske analyse indfpr-
tes imidlertid et fjerde og sidste “fonologisk” tekstgengi-
velsesniveau i form af normalisering med stprre korre-
spondens mellem grafklasser og fonemer, et niveau som
i vid udstrækning afspejler referencesystemet. Uden dette
havde genereringen af lister over grafofonematiske relatio-
ner máttet tage udgangspunkt i worw-niveauet, hvilket ville
have gjort det betydelig mere omstændeligt at kontrollere
og disambiguere de genererede lister. Fx ville tilfælde med
(a), (u), (e), <i), <y) pá norm-niveau være blevet sammen-
blandet med <au), <ei) og <ey), og tilfælde med geminerede
konsonanter ville være blevet blandet sammen med enkelt-
konsonanter. De problematiske fonemer fik derfor en en-
tydig manifestation. Sáledes blev normaliseret <au) eksem-
pelvis gengivet som ‘a/ og normaliseret <tt) som V pá det
“fonologiske” niveau.2
Visse tekstuelle opmærkninger er ogsá blevet indfprt i
XML-filerne, bl. a. til hjælp for underspgelsen af indika-
tioner af værkets eventuelle forskellige tekstlag. Hvert ord
1 Se www.gnu.org/software/emacs.
2 Herefter omtalt som “/on-niveauet”.
er ud over oplysninger om dets placering i hándskriftet sá-
ledes blevet forsynet med en angivelse af hvilket tekstafsnit
det stár i, i overensstemmelse med indholdsoversigten i bi-
lag B. Pá samme máde er alle i poesi optrædende ord blevet
særmærket for i spgninger at kunne holdes adskilt fra ord
i prosakontekst.
I et fremtidigt lignende projekt kan der med fordel fore-
tages visse justeringer af opmærkningspraksis. For lettere
at kunne opná mere korrekte resultater af spgninger i de
grafofonematiske relationer kunne man sáledes overveje at
indfpre specifikke angivelser af relationerne i attributter pá
facs-niveau (eller pá et selvstændigt fon-niveau, sáfremt et
sádant pnskes af hensyn til overskueligheden):
<w>
<facs>
<mi gfa=“s”>s</mi>
<mi gfa=“vá”>“</mi>
</facs>
</w>
Her betegner “mi” og “gfa” hhv. metainformation oggra-
fofonematiskanalyse. Da der i mange tilfælde ikke kan etab-
leres noget 1:1 forhold mellem grafem og fonem, vil en op-
mærkning af denne art dog være forbundet med en række
strukturelle problemer, og man kommer ikke uden om at
mátte operere med en lang række tilfælde med ubestemte
(ikke-opmærkede) relationer.
Anden metainformation vil kunne tilfpjes pá tilsvarende
vis. Eksempelvis kan oplysninger om palæografiske for-
hold tilfpjes ved hjælp af et system der har sin parallel i
opmærkningen af de morfosyntaktiske oplysninger i word-
elementet:
<w>
<facs>
<mi gfa=“s” pa=“xA yB zC” >s</mi>
<mi gfa=“vá” pa=“xA yB zC”>“</mi>
</facs>
</w>
Her stár “pa” for pah&ografisk analyse, mens “xA yB zC”
dækker over en række givne palæografiske træk som má
specificeres nærmere i et overordnet system, fx med in-
spiration fra grafematisk terminologi. En sádan palæo-
grafisk opmærkning er ikke blevet benyttet i afhandlings-
arbejdet. I mit arbejde med hánd B i Kjeldsen (2004) an-
vendte jeg derimod en underopdeling i forskellige entiteter
— jf. det tidligere anfprte eksempel med svá:
<wxfacs>&s2;&rai;</facsx/w>
Sammenlignet med den skitserede model baseret pá noget
der minder om en trækanalyse, er en sádan praksis imid-
lertid uhensigtsmæssig af en række ársager. Der er blandt
andet nærmest ingen grænser for antallet af npdvendige en-
titeter i et stort, varieret korpus, hvilket fprer til en hpj grad
2.4.2