Tölvumál


Tölvumál - 01.02.2008, Blaðsíða 63

Tölvumál - 01.02.2008, Blaðsíða 63
T Ö L V U M Á L | 6 3 beygingarlegt samræmi ríki á milli frumlags og sagnar, á milli frumlags og sagnfyllingar, innan nafnliða og forsetningaliða o.s.frv. [6]. Mikilvægur hluti af IceTagger er beygingarlegur greinir, IceMorphy, sem giskar á möguleg mörk fyrir óþekkt orð, þ.e. orð sem ekki finnast í orðasafni markarans, og finnur út hvaða mörk fyrir þekkt orð vantar í orðasafnið. Prófanir hafa sýnt að IceTagger nær 91,5% nákvæmni við mörkun sama texta og notaður var við prófanir á gagnamörkurunum og samkvæmt því gerir IceTagger 11,5% færri villur en besti gagnamarkarinn. Nákvæmni IceTagger við mörkun óþekktra orða er um 75% [5, 7]. Samsetning (e. combination) markara skilar oft meiri nákvæmni en fæst með einstökum mörkurum. Ástæðan er sú að mismunandi markarar hafa tilhneigingu til að gera ólíkar villur og þennan mismun er hægt að nýta til að ná meiri nákvæmni. Ein samsetningaraðferð er einföld kosning (e. simple voting). Í henni eru mismunandi markarar látnir greiða atkvæði með marki fyrir sérhvert orð og síðan er það mark valið sem hlýtur flest atkvæði. Með því að setja saman IceTagger og fjóra mismunandi gagnamarkara – og beita einfaldri kosningu – hefur tekist að ná um 93,5% nákvæmni við mörkun íslensks texta [7]. Hlutaþáttari Markmið með vélrænni setningagreiningu eða þáttun (e. parsing) er að greina formgerð setninga og tengsl einstakra hluta þeirra. Þáttari er forrit sem framkvæmir setningagreiningu. Inntak í þáttara er í flestum tilvikum í formi markaðra setninga og úttakið er lýsing á formgerð þeirra og fyrrgreindum tengslum. Setningagreiningu er oftast skipt í tvo yfirflokka. Annars vegar er um að ræða fulla þáttun (e. full parsing), þar sem búið er til fullkomið þáttunartré (e. parse tree) fyrir sérhverja setningu, og hins vegar hlutaþáttun (e. shallow parsing) þar sem setningar eru greindar í setningarhluta án þess að krafist sé að sérhver hluti passi inn í fullkomið þáttunartré. Höfundur hefur þróað svokallaðan stigvaxandi (e. incremental) hlutaþáttara, IceParser, fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum [8]. Þáttarinn samanstendur af röð af stöðuferjöldum (e. finite­state transducers) sem er skipt upp í tvær einingar. Sú fyrri sér um greiningu setningarliða og sú síðari um greiningu setningafræðilegra hlutverka. Í setningarliðaeiningunni sér eitt ferjald um greiningu atviksliða, annað um greiningu lýsingarorðsliða, hið þriðja um greiningu nafnliða o.s.frv. Í seinni einingunni sér eitt ferjald um greiningu frumlaga, annað um greiningu sagnfyllinga, hið þriðja um greiningu andlaga o.s.frv. Sérhvert stöðuferjald setur merki inn í markaðan textann sem táknar upphaf og lok tiltekinna setningarliða eða setningafræðilegra hlutverka. Ferjöldin leita að hlutstrengjum í inntakstextanum, sem merkja skal, með því að nota safn af setningafræðilegum mynstrum sem skilgreind eru með reglulegum segðum (e. regular expressions). Nákvæma lýsingu á greiningaratriðum hlutaþáttarans má finna í svokölluðu þáttunarskema (e. annotation scheme) sem var búið til áður en þáttarinn var þróaður [9]. Lítum t.d. á úttakið úr setningarliðaeiningunni fyrir mörkuðu setninguna úr síðasta kafla: [NP Hlutverk nhen NP] [NP markara nkee NP] [VPb er sfg3en VPb] [VPi að cn greina sng VPi] [NP sérhvert foheo orð nheo NP] [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Setningin hefur hér verið bútuð niður í einstaka setningarliði, eins og nafnliði ([NP ... NP]), sagnliði ([VPx ... VPx]), forsetningarliði ([PP ... PP]) og lýsingarorðslið ([AP ... AP]). Úttakið úr þessari einingu er síðan sent sem inntak inn í eininguna sem greinir setningafræðileg hlutverk. Niðurstaðan er: {*SUBJ> [NP Hlutverk nhen NP] {*QUAL [NP markara nkee NP] *QUAL} *SUBJ>} [VPb er sfg3en VPb] [VPi að cn greina sng VPi] {*OBJ< [NP sérhvert foheo orð nheo NP] *OBJ<} [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Hlutverk markara er að greina sérhvert orð í texta í orðflokk og beygingarleg einkenni Gagnamarkarar læra af fyrirfram markaðri málheild á vélrænan hátt, en málfræðilegir reglumarkarar nota handgerðar reglur til að framkvæma einræðingu
Blaðsíða 1
Blaðsíða 2
Blaðsíða 3
Blaðsíða 4
Blaðsíða 5
Blaðsíða 6
Blaðsíða 7
Blaðsíða 8
Blaðsíða 9
Blaðsíða 10
Blaðsíða 11
Blaðsíða 12
Blaðsíða 13
Blaðsíða 14
Blaðsíða 15
Blaðsíða 16
Blaðsíða 17
Blaðsíða 18
Blaðsíða 19
Blaðsíða 20
Blaðsíða 21
Blaðsíða 22
Blaðsíða 23
Blaðsíða 24
Blaðsíða 25
Blaðsíða 26
Blaðsíða 27
Blaðsíða 28
Blaðsíða 29
Blaðsíða 30
Blaðsíða 31
Blaðsíða 32
Blaðsíða 33
Blaðsíða 34
Blaðsíða 35
Blaðsíða 36
Blaðsíða 37
Blaðsíða 38
Blaðsíða 39
Blaðsíða 40
Blaðsíða 41
Blaðsíða 42
Blaðsíða 43
Blaðsíða 44
Blaðsíða 45
Blaðsíða 46
Blaðsíða 47
Blaðsíða 48
Blaðsíða 49
Blaðsíða 50
Blaðsíða 51
Blaðsíða 52
Blaðsíða 53
Blaðsíða 54
Blaðsíða 55
Blaðsíða 56
Blaðsíða 57
Blaðsíða 58
Blaðsíða 59
Blaðsíða 60
Blaðsíða 61
Blaðsíða 62
Blaðsíða 63
Blaðsíða 64
Blaðsíða 65
Blaðsíða 66
Blaðsíða 67
Blaðsíða 68
Blaðsíða 69
Blaðsíða 70
Blaðsíða 71
Blaðsíða 72
Blaðsíða 73
Blaðsíða 74
Blaðsíða 75
Blaðsíða 76
Blaðsíða 77
Blaðsíða 78
Blaðsíða 79
Blaðsíða 80
Blaðsíða 81
Blaðsíða 82
Blaðsíða 83
Blaðsíða 84

x

Tölvumál

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Tölvumál
https://timarit.is/publication/239

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.