Orð og tunga - 01.06.2007, Blaðsíða 86
76
Orð og tunga
greina íslenskan texta vélrænt í orðflokka og eftir beygingu. Markmið
verkefnisins var að búa til markara sem gæti markað íslenskan texta
með a.m.k. 92% nákvæmni.
Verkefnið þróaðist á þann veg að prófaðar voru fjórar aðferðir við
mörkun íslensks texta. í greininni verður gerð grein fyrir málfræði-
legri mörkun og nokkrum aðferðum við vélræna greiningu. Greint
verður frá tilraun til þess að nota fjórar aðferðir við vélræna mörk-
un íslensks texta. Við tilraunirnar var notað textasafn sem var búið
til vegna íslenskrar orðtíðnibókar. Einnig verður greint frá tilraunum til
þess að bæta mörkun, m.a. tilraunum til þess að sameina niðurstöður
þriggja markara eftir tilteknum reglum til þess að ná sem bestum ár-
angri við mörkun. Að lokum er greint frá tilraunum til þess að marka
texta sem eru ekki hluti af textasafni Orðtíðnibókarinnar. Lokaskýrslu
var skilað til menntamálaráðuneytisins í febrúar 2004.
2 Málfræðileg mörkun texta
Með mörkun (e. tagging) er átt við það að merkja orð í samfelldum
texta á kerfisbundinn hátt, t.d. með málfræðilegum upplýsingum,
nefnimynd orðsins og upplýsingum um setningafræðilegt hlutverk.
í þessari grein er orðið mark notað um málfræðilegt mark* * 3. Málfræði-
legt mark er greiningarstrengur sem er tengdur orði í texta og segir
til um orðflokk orðsins og önnur málfræðileg atriði, t.d. kyn, tölu og
fall fallorða og persónu, tölu og tíð sagna. Taka má sem dæmi setn-
ingarbrotið ég sagði. Nefnimynd fornafnsins ég er ég og markið verð-
ur fplen, þar sem f táknar fornafn, p táknar persónufornafn, 1 tákn-
ar fyrstu persónu, e táknar eintölu og n táknar nefnifall. Nefnimynd
sagnarinnar sagði er segja og markið verður sfgleþ þar sem s tákn-
ar sagnorð, f táknar framsöguhátt, g táknar germynd, 1 táknar fyrstu
persónu, e táknar eintölu og þ táknar þátíð.
Elsta aðferð við málfræðilega mörkun er handvirk greining texta
eftir orðflokkum og beygingu. Sú aðferð er þó mjög tímafrek og þess
vegna hefur lengi verið fengist við að þróa vélrænar aðferðir við mál-
vinnulag við prófun markaranna og vann meginhluta vinnunnar ásamt félögum í
Málgreiningarhópnum.
3Í ensku eru notuð orðin POS tag, part-of-speech tag og morphological tag um
það sem hér er kallað málfræðilegt mark. Þó að POS eða part-of-speech sé venjulega
notað um orðflokk eru þessi orð oft einnig látin ná yfir beygingarlegar myndir.