Gripla - 20.12.2012, Page 341
339
ann á liðgerðargreiningu (e. phrase structure annotation). Meginástæða þess
var sú að við vorum í samstarfi við rann sóknarhóp Anthony kroch, en
sá hópur hefur staðið að gerð sögulegu ensku trjábankanna sem eru af
þessari gerð. Þar sem mikil líkindi eru með íslensku og fornensku gátum
við haft mjög mikið gagn af greiningunni sem þar hafði verið unnin.
ítarleg handbók er til fyrir þessa grein ingu þar sem lýst er hvernig farið er
með marg víslegar setningagerðir (santorini 2010), og sú lýsing gagnaðist
okkur vel.
Annar ávinningur við að nýta þessa greiningu er sá að til er góður
leitarhug búnaður sem miðast við hana, og nýtist því beint í íslenska trjá-
bankanum. Þar sem greining ís lensku og eldri málstiga ensku er hliðstæð
opnast möguleiki til marg víslegs saman burðar á setn ingagerð málanna
og þróun hennar. nú eru líka til eða í smíðum trjá bankar þar sem sama
greining er notuð fyrir ýmis önnur mál, s.s. frönsku (Martineu o.fl. 2010),
portúgölsku (Galves og faria 2010), snemmháþýsku (Light 2010), forn-
grísku (Beck 2011), færeysku (Anton karl Ingason o.fl. 2012; eiríkur
Rögnvaldsson o.fl. 2012) og fleiri, og saman burður íslensku við þau mál
verður þá einnig mögulegur. einnig má nefna að þetta greiningarskema
felur í sér meiri upplýsingar en mörg önnur, t.d. flest þeirra sem byggjast
á venslagreiningu (e. dependency).3
eftir að textunum hafði verið breytt í nútímastafsetningu tóku aðstoðar-
menn úr hópi stúdenta við þeim og settu inn málsgreina- og setningaskil.
Það er ekki alltaf auð velt að gera slíkt vélrænt, en hins vegar eykur það
mjög nákvæmni vélrænnar grein ingar ef hún getur byggt á slíkum skilum.
Að þessu loknu voru textarnir keyrðir í gegnum for ritin í IceNLP-
hugbúnaðarpakkanum – IceTagger, IceParser og Lemmald. Þessi forrit
skiluðu grófri málfræðilegri og setningafræðilegri greiningu textans. síðan
voru keyrð ýmis heimasmíðuð forrit sem færðu úttakið úr IceNLP í
það snið sem notað er í sögulegu ensku trjábönkunum. í því fólst m.a.
að afmarka setningarliði og breyta markamenginu (e. tagset), þ.e. þeim
skammstöfunum sem notaðar eru til að tákna einstaka orðflokka og setn-
3 Þar er einkum um að ræða upplýsingar um orðaröð – venslagreiningin leggur megináherslu
á vensl orða og liða, eins og áður er nefnt, en skeytir minna um línulega röð þeirra. Þetta er
þó ekki algilt því að til eru ýmis afbrigði af venslagreiningu, rétt eins og liðgerðargreiningu,
og sum þeirra hafa að geyma svipaðar upplýsingar og liðgerðargreining. Dag Haug, aðalhöf-
undur PROIELbankans (sjá 2. kafla), hefur t.d. skrifað forrit sem breytir venslagreiningu
PROIEL í liðgerðargreiningu sögulegu Penntrjábankanna (persónulegar upplýsingar).
SÖGULEGI ÍSLENSKI TRJÁBANKINN