Orð og tunga - 01.06.2002, Page 11
Eiríkur Rögnvaldsson
Auður Þórunn Rögnvaldsdóttir
Kristín Bjamadóttir
Sigrún Helgadóttir
Vélræn málfræðigreining með
námfúsum markara
1 Inngangur
Hér verður sagt frá tilraun til að greina íslenska texta málfræðilega á vélrænan hátt
með aðferð sem nefnd er á ensku transformation-based learning. Þeirri aðferð, sem
oft er kennd við Eric Brill, hefur verið beitt með góðum árangri á ýmis tungumál,
en að því er við best vitum hefur hún ekki áður verið prófuð á íslensku. Að okkar
mati voru niðurstöður tilraunarinnar nægilega góðar til að ástæða væri til að útfæra
verkefnið frekar. Við stöndum nú ásamt Orðabók Háskólans að verkefni sem hefur það
að markmiði að greina íslenska texta vélrænt með yfir 90% nákvæmni. í því verkefni
verður byggt á þeirri tilraun sem hér segir frá, en þar verða einnig ýmsar aðrar aðferðir
til vélrænnar greiningar prófaðar og bornar saman.
Með vélrænni málfræðigreiningu er hér átt við það að greina orð í samfelldum
texta málfræðilega, og skrifa greininguna inn í textann - eða réttara sagt, skrifa út
nýja skrá þar sem greiningarstrengur er tengdur hverju orði. Málfræðilega greiningin
getur verið misnákvæm; felst a.m.k. í greiningu orðflokks, en oftast einnig í nákvæmari
greiningu einstakra málfræðilegra formdeilda. Hér er átt við hefðbunda greiningu sem
flestir þekkja úr skólamálfræði; í nafnorðum er greint kyn. tala, fall og greinir, í sögnum
persóna, tala, háttur, tíð, mynd, o.s.frv.
Aðferðir við vélræna málfræðigreiningu, eða málfræðilega mörkun (grammatical
tagging) eru ýmsar, en þrjár eru þekktastar; reglumörkun (rule-based tagging), lrkinda-
mörkun eða tölfræðimörkun (stochastic/statistical tagging), og mörkun byggð á trans-
1