Tölvumál - 01.02.2008, Blaðsíða 63
T Ö L V U M Á L | 6 3
beygingarlegt samræmi ríki á milli frumlags og sagnar, á milli frumlags og
sagnfyllingar, innan nafnliða og forsetningaliða o.s.frv. [6]. Mikilvægur hluti
af IceTagger er beygingarlegur greinir, IceMorphy, sem giskar á möguleg
mörk fyrir óþekkt orð, þ.e. orð sem ekki finnast í orðasafni markarans, og
finnur út hvaða mörk fyrir þekkt orð vantar í orðasafnið.
Prófanir hafa sýnt að IceTagger nær 91,5% nákvæmni við mörkun sama
texta og notaður var við prófanir á gagnamörkurunum og samkvæmt því
gerir IceTagger 11,5% færri villur en besti gagnamarkarinn. Nákvæmni
IceTagger við mörkun óþekktra orða er um 75% [5, 7].
Samsetning (e. combination) markara skilar oft meiri nákvæmni en fæst
með einstökum mörkurum. Ástæðan er sú að mismunandi markarar hafa
tilhneigingu til að gera ólíkar villur og þennan mismun er hægt að nýta
til að ná meiri nákvæmni. Ein samsetningaraðferð er einföld kosning (e.
simple voting). Í henni eru mismunandi markarar látnir greiða atkvæði með
marki fyrir sérhvert orð og síðan er það mark valið sem hlýtur flest atkvæði.
Með því að setja saman IceTagger og fjóra mismunandi gagnamarkara –
og beita einfaldri kosningu – hefur tekist að ná um 93,5% nákvæmni við
mörkun íslensks texta [7].
Hlutaþáttari
Markmið með vélrænni setningagreiningu eða þáttun (e. parsing) er að
greina formgerð setninga og tengsl einstakra hluta þeirra. Þáttari er forrit
sem framkvæmir setningagreiningu. Inntak í þáttara er í flestum tilvikum
í formi markaðra setninga og úttakið er lýsing á formgerð þeirra og
fyrrgreindum tengslum.
Setningagreiningu er oftast skipt í tvo yfirflokka. Annars vegar er um að
ræða fulla þáttun (e. full parsing), þar sem búið er til fullkomið þáttunartré
(e. parse tree) fyrir sérhverja setningu, og hins vegar hlutaþáttun (e. shallow
parsing) þar sem setningar eru greindar í setningarhluta án þess að krafist
sé að sérhver hluti passi inn í fullkomið þáttunartré.
Höfundur hefur þróað svokallaðan stigvaxandi (e. incremental) hlutaþáttara,
IceParser, fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum
[8]. Þáttarinn samanstendur af röð af stöðuferjöldum (e. finitestate
transducers) sem er skipt upp í tvær einingar. Sú fyrri sér um greiningu
setningarliða og sú síðari um greiningu setningafræðilegra hlutverka. Í
setningarliðaeiningunni sér eitt ferjald um greiningu atviksliða, annað um
greiningu lýsingarorðsliða, hið þriðja um greiningu nafnliða o.s.frv. Í seinni
einingunni sér eitt ferjald um greiningu frumlaga, annað um greiningu
sagnfyllinga, hið þriðja um greiningu andlaga o.s.frv.
Sérhvert stöðuferjald setur merki inn í markaðan textann sem táknar upphaf
og lok tiltekinna setningarliða eða setningafræðilegra hlutverka. Ferjöldin
leita að hlutstrengjum í inntakstextanum, sem merkja skal, með því að nota
safn af setningafræðilegum mynstrum sem skilgreind eru með reglulegum
segðum (e. regular expressions).
Nákvæma lýsingu á greiningaratriðum hlutaþáttarans má finna í svokölluðu
þáttunarskema (e. annotation scheme) sem var búið til áður en þáttarinn
var þróaður [9]. Lítum t.d. á úttakið úr setningarliðaeiningunni fyrir mörkuðu
setninguna úr síðasta kafla:
[NP Hlutverk nhen NP] [NP markara nkee NP] [VPb er sfg3en VPb] [VPi
að cn greina sng VPi] [NP sérhvert foheo orð nheo NP] [PP í aþ [NP texta
nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP
beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP]
Setningin hefur hér verið bútuð niður í einstaka setningarliði, eins og
nafnliði ([NP ... NP]), sagnliði ([VPx ... VPx]), forsetningarliði ([PP ... PP]) og
lýsingarorðslið ([AP ... AP]). Úttakið úr þessari einingu er síðan sent sem
inntak inn í eininguna sem greinir setningafræðileg hlutverk. Niðurstaðan
er:
{*SUBJ> [NP Hlutverk nhen NP] {*QUAL [NP markara nkee NP] *QUAL}
*SUBJ>} [VPb er sfg3en VPb] [VPi að cn greina sng VPi] {*OBJ< [NP
sérhvert foheo orð nheo NP] *OBJ<} [PP í aþ [NP texta nkeþ NP] PP] [PP í
ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP]
einkenni nhfo NP] NPs] PP]
Hlutverk markara er að greina sérhvert orð í
texta í orðflokk og beygingarleg einkenni
Gagnamarkarar læra af fyrirfram markaðri
málheild á vélrænan hátt, en málfræðilegir
reglumarkarar nota handgerðar reglur til að
framkvæma einræðingu