Orð og tunga - 01.06.2006, Page 122
120 Orð og tunga
flettimynd sinni, nafnhætti, og til að notkun hennar birtist einnig á
sem eðlilegastan hátt í orðasambandinu.
í fyrstu tilraun til að marka orðasambönd voru notuð 2296 sam-
bönd úr orðasambandaskránni sem öll byrjuðu á bókstafnum a-, án
tillits til einstakra lykilorða innan sambandanna og orðflokks þeirra.
Með lykilorði er átt við orð eins og aka og feitur í dæmunum að ofan,
orð sem eru þungamiðja sambandanna eða í það minnsta mikilvæg
orð innan þeirra. Það varð þó fljótlega ljóst að niðurstöður yrðu mark-
vissari með því að miða mörkunina við ákveðin lykilorð fremur en
stafrófsröðina sem orðasamböndin röðuðust eftir.
í tilrauninni sem hér er til umræðu voru mörkuð 54 orðasambönd
með sögninni aka, 29 orðasambönd með sögninni afla, 75 orðasam-
bönd með lýsingarorðinu/e/fur og 46 orðasambönd með lýsingarorð-
inu glaður. í 6. kafla verður litið á þessi orðasambönd og afdrif þeirra
eftir mörkunarferlið.
3 Markari og mörkun
3.1 Markarinn
Þj álfunmarkara fyrir íslensku var tungutækni verkefni á vegum mennta-
málaráðuneytisins sem var unnið á Orðabók Háskólans frá haustinu
2002 fram í febrúar 2004 (sjá Eirík Rögnvaldsson o.fl. 2002). Til er
greinargóð lýsing á verkefninu hjá Sigrúnu Helgadóttur (2004a og
2005) en hún sá um að þjálfa og prófa slík forrit fyrir íslensku. Fimm
mismunandi markarar voru þjálfaðir fyrir íslenskan texta og reyndist
svonefndur TnT-markari gefa besta raun. Markaranum var frá upp-
hafi ætlað að vera fyrri hluti stærra verkefnis, og þegar þetta er ritað
er verið að vinna að framhaldsverkefni hans sem ber nafnið Mörkuð
íslensk málheild (sjá Sigrúnu Helgadóttur 2004b). Það felst í því að
búa til markað textasafn (nefnt tagged corpus á ensku) sem hefur að
geyma fullmarkaða íslenska nútímatexta, en slík textasöfn eru til víða
erlendis.
Við mörkun orðasambandanna lá beinast við að nota það markara-
forrit sem hafði gefið bestan árangur þegar því var beitt á venjulegan,
samfelldan texta, það er að segja TnT-markarann. En þar sem orða-
samböndin í þessari tilraun eru ekki samfelldur texti þótti ástæða til
að prófa einnig aðra tegund markara því ekki var hægt að vita fyrir-