Orð og tunga - 01.06.2007, Page 89
Sigrún Helgadóttir: Mörkun íslensks texta
79
Hverju lesmálsorði var síðan komið fyrir í sérstakri línu. í þeirri línu
var einnig komið fyrir greiningarstreng orðsins eða marki og
nefnimynd (flettimynd) þess. í mynd 1 er sýnd ein setning úr skáld-
sögunni Mín kdta angist eftir Guðmund Andra Thorsson og hvernig
hún er greind. Til glöggvimar er sýnd skýring á greiningarstrengjum.
í formála Orðtíðnibókarinnar er gerð grein fyrir vélrænni grein-
ingu sem notuð var við gerð bókarinnar (Jörgen Pind, Friðrik Magn-
ússon og Stefán Briem 1991). Vélræna greiningin byggist á greiningu
54.000 lesmálsorða sem höfðu verið greind handvirkt og notuð við
orðtíðnikönnun (Friðrik Magnússon 1988). Stefán Briem (1990) ger-
ir grein fyrir aðferðum sem var beitt við vélrænu greininguna. Höf-
undar Orðtíðnibókarinnar telja að um 80% lesmálsorða hafi fengið
rétta greiningu að öllu leyti með vélrænu greiningimni. Nokkrum ár-
um seinna var forritið endurbætt á grundvelli greiningar alls textans.
Fékkst þá tæplega 90% nákvæmni (Stefán Briem, munnlegar upplýs-
ingar). Athyglisvert er að bera þá niðurstöðu saman við niðurstöðu
tilraunarinnar sem hér verður greint frá.
í greiningu lesmálsorða sem notuð var í Orðtíðnibókinni er greint
á milli átta orðflokka: nafnorða, lýsingarorða, fornafna, lauss grein-
is, töluorða, sagna, atviksorða og samtenginga. Orð sem ekki flokk-
ast í þessa orðflokka voru annað hvort talin erlend orð eða ógreind
orð. Helstu frávik frá venjulegri orðflokkagreiningu voru þau að for-
setningar voru taldar með atviksorðum. Þess vegna koma fyrir atviks-
orð sem stýra falli. Upphrópanir voru einnig taldar með atviksorðum.
Nafnháttarmerki var talið með samtengingum. í viðauka A er yfirlit
yfir greiningarstrengi sem voru notaðir.
4 Aðferðir og markarar
í þeirri könnun sem hér er greint frá voru eingöngu prófaðar gagna-
aðferðir. Þær byggjast á því að forrit býr til líkan út frá fyrir fram
greindu textasafni. Þetta safn kallast þjálfunarsafn. Aðferðin er síðan
prófuð á sérstöku prófunarsafni. Til þess að prófa tiltekna mörkunar-
aðferð þarf að hafa aðgang að nokkuð stóru textasafni sem hefur verið
greint í lesmálsorð og hverju lesmálsorði gefinn greiningarstrengur í
samræmi við þá greiningu sem óskað er að fá fram. Textasafninu er
skipt í tvo hluta og er annar hlutinn kallaður þjálfunarsafn og hinn
hlutinn prófunarsafn. Þjálfunarsafnið er oft um 90% af textasafninu