Orð og tunga - 01.06.2006, Page 127
Þórdís Úlfarsdóttir: Málfræðileg mörkun orðasambanda
125
mörkun þeirra þess vegna heldur verri en þegar hann er látinn marka
samfelldari texta, eins og búast má við.
Það eru þrír þættir sem hafa mest áhrif á það hvernig tekst til með
mörkun orðasambandanna: 1) markaraforritið sem er notað, 2) sú ná-
kvæmni í greiningunni sem krafist er og 3) mörkun með eða án við-
bótarorðasafns.
Markaraforritið
Eins og fram kom í kafla 3.1 var mikill munur á nákvæmni í greiningu
milli þeirra tveggja markara sem voru prófaðir. Við mörkun orðasam-
banda gaf TnT-markarinn miklu betri niðurstöður en fnTBL-markar-
inn.
Ndkvæmni greiningarstrengja
Því flóknari sem greiningarstrengir eru þeim mun meiri líkur eru á
villum í þeim. í íslenskri orðtíðnibók er notuð stór markaskrá með 639
mismunandigreiningarstrengjum(sbr.Sigrúnu Helgadóttur 2005:258),
en það er sama safn greiningarstrengja og það sem TnT-markarinn
notar. Það er þó mjög bundið aðstæðum hversu nákvæma greiningu
nauðsynlegt er að hafa og oft er alveg nóg að fá orðflokkinn greindan
rétt. Heill greiningarstrengur lýsingarorðs er 6 stafir, greiningarstreng-
ur sagnar í persónuhætti er sömuleiðis 6 stafir og nafnorðs 4-5 stafir.
Nóg er að einn stafur í strengnum sé rangur til að markið teljist rangt.
Við mörkrm orðasambandanna var miðað við að orðflokkurinn
væri almennt nægilegur. Vegna séreinkenna orðasambandaskrárinn-
ar var þó tekið með fall persónufornafna og afturbeygða fomafnsins,
og fallstjóm forsetninga var einnig höfð með.
Viðbótarorðasafii
Það skiptir miklu máli hvort markað er með eða án viðbótarorða-
safns (lexíkons). Þegar TnT-markarinn var þjálfaður var notast við
orðasafn íslenskrar orðtíðnibókar, en í því eru 31.876 orð í flettimynd
sem koma fyrir í 59.358 orðmyndum (sjá Jörgen Pind o.fl. 1991:2 og
Sigrúnu Helgadóttur 2004a:59). Það telst ekki vera stórt orðasafn.
Orðasamböndin í skrá Orðabókar Háskólans eru eins og fyrr segir
unnin upp úr ritmálssafni þeirrar stofnunar, og þótt þau séu mörg
hver afar stutt er þar að finna auðugan orðaforða, eða 57.545 mismun-
andi lykilorð í flettimynd sinni samkvæmt talningu greinarhöfundar.
Með því að nota aðeins orðasafn íslenskrar orðtíðnibókar við mörkun
orðasambandanna urðu niðurstöðurnar ekki sérlega góðar þar sem