Orð og tunga - 01.06.2006, Page 143
Þórdís Úlfarsdóttir: Málfræðileg mörkun orðasambanda
141
Það blasir við eftir þessa mörkun að sá háttur sem hefur tíðkast í orða-
bókum að nota skammstafanir á óákveðna fornafninu einhver: e-r, e-n
o.s.frv., er ekki skiljanlegur markaranum. í þessum 22 línum kemur
skammstöfun á einhver fyrir í ýmsum föllum níu sinnum og er mark-
ið í öllum tilvikum rangt. Einhver er 7 sinnum greint sem nafnorð og
tvisvar sem lýsingarorð.
Auðvitað væri hægt að bæta árangur markarans með því að lengja
þessar skammstafanir fyrir mörkun þótt slíkt fæli í sér óæskilegt og
tafsamt iimgrip í textann. Ónnur og betri leið væri að bæta skamm-
stöfuninni e-r í öllum myndum inn í viðbótarorðasafnið.
Alls koma fýrir 14 villur í greiningu þessa orðabókartexta, þar af
eru fimm villur af öðru tagi en skammstafanir á einhver. Það verður að
teljast ágætur árangur því eins og í orðasamböndunum er í þessum
stuttu textum lítið setningarlegt samhengi fyrir markarann að styðjast
við.
9 Lokaorð
Þessi tilraun til að greina orðasambönd málfræðilega náði til um 200
orðasambanda sem höfðu eitt þessara fjögurra lykilorða: afla, aka,feit-
ur og glaður. Tilgangurinn var upphaflega sá að prófa nýtt tól, TnT-
markarann, og athuga hvernig gengi að marka orðasambönd með
honum því ekki hafði áður verið reynt að greina þetta sérstaka texta-
form á vélrænan hátt í íslensku.
Árangur mörkunarinnar varð ekki fjarri þeim árangri sem hefur
fengist þegar valinn samfelldur texti er markaður þótt hann væri að
vísu heldur verri eins og gert hafði verið ráð fyrir. Nefna má tölur
til samanburðar: TnT-markarinn náði að meðaltali 98,14% nákvæmni
við mörkun venjulegra texta (miðað við orðflokk eingöngu) en orða-
sambönd með sögninni aka mörkuðust með 95,07% nákvæmni (miðað
við orðflokk eingöngu en þó með fallstjórnarmerkingu forsetninga og
falli persónufornafna og afturbeygða fornafnsins). Orðasambönd með
lýsingarorðinu glaður mörkuðust með 96,96% nákvæmni.
Tveir þættir hafa mest áhrif á árangur mörkunarinnar: markarinn
sem er notaður og mörkun með eða án viðbótarorðasafns. Tveir mark-
arar voru prófaðir á orðasamböndunum og gaf TnT-markarinn mun