Orð og tunga - 01.06.2007, Qupperneq 112
102
Orð og tunga
10 Niðurstöður og umræða
Hér á undan hefur verið greint frá tilraunum við að marka íslensk-
an texta með ýmsum aðferðum sem hafa verið þróaðar fyrir önnur
tungumál. Fjórir markarar voru þjálfaðir og prófaðir á íslenskum texta
og reynt var að finna aðferðir til þess að bæta niðurstöðu markaranna.
Gerðar voru tilraunir með að nota orðasafn við mörkun, að kjósa á
milli markaranna og að beita málfræðilegum reglum til þess að velja
tiltekið mark fram yfir annað mark. Einnig var sýnt að með því að ein-
falda mörk mætti ná betri niðurstöðu. Það virðist skipta máli í hvaða
röð aðgerðunum er beitt. í töflu 15 er gefið yfirlit yfir helstu niðurstöð-
ur af því að sameina aðferðir.
Óþekkt orð Þekkt orð ÖIl orð
Aðferð Tíðni % Tíðni % Tíðni %
Orðasafn notað við mörknn með fnTBL og TnT5 fnTBL 28.461 70,44 503.142 91,50 531.603 90,06
MXPOST 25.252 62,50 500.611 91,04 525.863 89,08
TnT 34.859 86,28 505.511 91,93 540.370 91,54
Mörk einfölduð6 fnTBL 28.467 70,46 509.788 92,71 538.255 91,18
MXPOST 25.261 62,52 508.747 92,52 534.008 90,46
TnT 34.863 86,29 513.797 93,44 548.660 92,95
Vegið með heildamákvæmni 34.336 84,98 517.773 94,16 552.109 93,53
MXPOST fram yfir kosn. m. heildamkv. 34.013 84,18 518.818 94,35 552.831 93,65
Tafla 15. Nákvæmni við mörkun íslensks texta þegar fjórum aðgerð-
um er beitt í röð til þess að bæta niðurstöðu mörkunar þriggja markara
Sýndar eru niðurstöður miðað við að notað sé orðasafnið sem var búið
til þegar markað er með TnT og fnTBL. Hæsta nákvæmni, 93,65%, fæst
með því að nota orðasafn, einfalda mörk markaranna, kjósa á milli ein-
faldaðra marka og beita síðan reglum sem velja mark MXPOST þegar
tilteknum skilyrðum er fullnægt. Villum fækkar um 34% miðað við
niðurstöðu mörkunar með TnT eingöngu.
Niðurstaða sem fæst með því að nota hjálparorðasafn við mörkun
með TnT og fnTBL sýnir að villum mun fækka þegar orðasafn er not-
að. Það fer að sjálfsögðu eftir eðli textanna sem á að marka og stærð
hjálparorðasafnsins hversu mikið nákvæmni eykst við það. Með þeim
efnivið sem hér var til ráðstöfunar er þó ljóst að þær aðferðir sem hafa
verið prófaðar geta gefið um 92% nákvæmni fyrir texta sem eru líkir
textum Orðtíðnibókarinnar.
5Orðasafn hefur u.þ.b. helming óþekktra orða
6Einföldun felst í að greina ekki atviksorð og ekki heldur samtengingar Fomöfn
eru sett í einn flokk en að öðru leyti er greining þeirra eftir kyni, tölu og falli látin
haldast.