Tölvumál


Tölvumál - 01.02.2008, Page 63

Tölvumál - 01.02.2008, Page 63
T Ö L V U M Á L | 6 3 beygingarlegt samræmi ríki á milli frumlags og sagnar, á milli frumlags og sagnfyllingar, innan nafnliða og forsetningaliða o.s.frv. [6]. Mikilvægur hluti af IceTagger er beygingarlegur greinir, IceMorphy, sem giskar á möguleg mörk fyrir óþekkt orð, þ.e. orð sem ekki finnast í orðasafni markarans, og finnur út hvaða mörk fyrir þekkt orð vantar í orðasafnið. Prófanir hafa sýnt að IceTagger nær 91,5% nákvæmni við mörkun sama texta og notaður var við prófanir á gagnamörkurunum og samkvæmt því gerir IceTagger 11,5% færri villur en besti gagnamarkarinn. Nákvæmni IceTagger við mörkun óþekktra orða er um 75% [5, 7]. Samsetning (e. combination) markara skilar oft meiri nákvæmni en fæst með einstökum mörkurum. Ástæðan er sú að mismunandi markarar hafa tilhneigingu til að gera ólíkar villur og þennan mismun er hægt að nýta til að ná meiri nákvæmni. Ein samsetningaraðferð er einföld kosning (e. simple voting). Í henni eru mismunandi markarar látnir greiða atkvæði með marki fyrir sérhvert orð og síðan er það mark valið sem hlýtur flest atkvæði. Með því að setja saman IceTagger og fjóra mismunandi gagnamarkara – og beita einfaldri kosningu – hefur tekist að ná um 93,5% nákvæmni við mörkun íslensks texta [7]. Hlutaþáttari Markmið með vélrænni setningagreiningu eða þáttun (e. parsing) er að greina formgerð setninga og tengsl einstakra hluta þeirra. Þáttari er forrit sem framkvæmir setningagreiningu. Inntak í þáttara er í flestum tilvikum í formi markaðra setninga og úttakið er lýsing á formgerð þeirra og fyrrgreindum tengslum. Setningagreiningu er oftast skipt í tvo yfirflokka. Annars vegar er um að ræða fulla þáttun (e. full parsing), þar sem búið er til fullkomið þáttunartré (e. parse tree) fyrir sérhverja setningu, og hins vegar hlutaþáttun (e. shallow parsing) þar sem setningar eru greindar í setningarhluta án þess að krafist sé að sérhver hluti passi inn í fullkomið þáttunartré. Höfundur hefur þróað svokallaðan stigvaxandi (e. incremental) hlutaþáttara, IceParser, fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum [8]. Þáttarinn samanstendur af röð af stöðuferjöldum (e. finite­state transducers) sem er skipt upp í tvær einingar. Sú fyrri sér um greiningu setningarliða og sú síðari um greiningu setningafræðilegra hlutverka. Í setningarliðaeiningunni sér eitt ferjald um greiningu atviksliða, annað um greiningu lýsingarorðsliða, hið þriðja um greiningu nafnliða o.s.frv. Í seinni einingunni sér eitt ferjald um greiningu frumlaga, annað um greiningu sagnfyllinga, hið þriðja um greiningu andlaga o.s.frv. Sérhvert stöðuferjald setur merki inn í markaðan textann sem táknar upphaf og lok tiltekinna setningarliða eða setningafræðilegra hlutverka. Ferjöldin leita að hlutstrengjum í inntakstextanum, sem merkja skal, með því að nota safn af setningafræðilegum mynstrum sem skilgreind eru með reglulegum segðum (e. regular expressions). Nákvæma lýsingu á greiningaratriðum hlutaþáttarans má finna í svokölluðu þáttunarskema (e. annotation scheme) sem var búið til áður en þáttarinn var þróaður [9]. Lítum t.d. á úttakið úr setningarliðaeiningunni fyrir mörkuðu setninguna úr síðasta kafla: [NP Hlutverk nhen NP] [NP markara nkee NP] [VPb er sfg3en VPb] [VPi að cn greina sng VPi] [NP sérhvert foheo orð nheo NP] [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Setningin hefur hér verið bútuð niður í einstaka setningarliði, eins og nafnliði ([NP ... NP]), sagnliði ([VPx ... VPx]), forsetningarliði ([PP ... PP]) og lýsingarorðslið ([AP ... AP]). Úttakið úr þessari einingu er síðan sent sem inntak inn í eininguna sem greinir setningafræðileg hlutverk. Niðurstaðan er: {*SUBJ> [NP Hlutverk nhen NP] {*QUAL [NP markara nkee NP] *QUAL} *SUBJ>} [VPb er sfg3en VPb] [VPi að cn greina sng VPi] {*OBJ< [NP sérhvert foheo orð nheo NP] *OBJ<} [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Hlutverk markara er að greina sérhvert orð í texta í orðflokk og beygingarleg einkenni Gagnamarkarar læra af fyrirfram markaðri málheild á vélrænan hátt, en málfræðilegir reglumarkarar nota handgerðar reglur til að framkvæma einræðingu

x

Tölvumál

Direct Links

If you want to link to this newspaper/magazine, please use these links:

Link to this newspaper/magazine: Tölvumál
https://timarit.is/publication/239

Link to this issue:

Link to this page:

Link to this article:

Please do not link directly to images or PDFs on Timarit.is as such URLs may change without warning. Please use the URLs provided above for linking to the website.