Tölvumál


Tölvumál - 01.02.2008, Síða 63

Tölvumál - 01.02.2008, Síða 63
T Ö L V U M Á L | 6 3 beygingarlegt samræmi ríki á milli frumlags og sagnar, á milli frumlags og sagnfyllingar, innan nafnliða og forsetningaliða o.s.frv. [6]. Mikilvægur hluti af IceTagger er beygingarlegur greinir, IceMorphy, sem giskar á möguleg mörk fyrir óþekkt orð, þ.e. orð sem ekki finnast í orðasafni markarans, og finnur út hvaða mörk fyrir þekkt orð vantar í orðasafnið. Prófanir hafa sýnt að IceTagger nær 91,5% nákvæmni við mörkun sama texta og notaður var við prófanir á gagnamörkurunum og samkvæmt því gerir IceTagger 11,5% færri villur en besti gagnamarkarinn. Nákvæmni IceTagger við mörkun óþekktra orða er um 75% [5, 7]. Samsetning (e. combination) markara skilar oft meiri nákvæmni en fæst með einstökum mörkurum. Ástæðan er sú að mismunandi markarar hafa tilhneigingu til að gera ólíkar villur og þennan mismun er hægt að nýta til að ná meiri nákvæmni. Ein samsetningaraðferð er einföld kosning (e. simple voting). Í henni eru mismunandi markarar látnir greiða atkvæði með marki fyrir sérhvert orð og síðan er það mark valið sem hlýtur flest atkvæði. Með því að setja saman IceTagger og fjóra mismunandi gagnamarkara – og beita einfaldri kosningu – hefur tekist að ná um 93,5% nákvæmni við mörkun íslensks texta [7]. Hlutaþáttari Markmið með vélrænni setningagreiningu eða þáttun (e. parsing) er að greina formgerð setninga og tengsl einstakra hluta þeirra. Þáttari er forrit sem framkvæmir setningagreiningu. Inntak í þáttara er í flestum tilvikum í formi markaðra setninga og úttakið er lýsing á formgerð þeirra og fyrrgreindum tengslum. Setningagreiningu er oftast skipt í tvo yfirflokka. Annars vegar er um að ræða fulla þáttun (e. full parsing), þar sem búið er til fullkomið þáttunartré (e. parse tree) fyrir sérhverja setningu, og hins vegar hlutaþáttun (e. shallow parsing) þar sem setningar eru greindar í setningarhluta án þess að krafist sé að sérhver hluti passi inn í fullkomið þáttunartré. Höfundur hefur þróað svokallaðan stigvaxandi (e. incremental) hlutaþáttara, IceParser, fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum [8]. Þáttarinn samanstendur af röð af stöðuferjöldum (e. finite­state transducers) sem er skipt upp í tvær einingar. Sú fyrri sér um greiningu setningarliða og sú síðari um greiningu setningafræðilegra hlutverka. Í setningarliðaeiningunni sér eitt ferjald um greiningu atviksliða, annað um greiningu lýsingarorðsliða, hið þriðja um greiningu nafnliða o.s.frv. Í seinni einingunni sér eitt ferjald um greiningu frumlaga, annað um greiningu sagnfyllinga, hið þriðja um greiningu andlaga o.s.frv. Sérhvert stöðuferjald setur merki inn í markaðan textann sem táknar upphaf og lok tiltekinna setningarliða eða setningafræðilegra hlutverka. Ferjöldin leita að hlutstrengjum í inntakstextanum, sem merkja skal, með því að nota safn af setningafræðilegum mynstrum sem skilgreind eru með reglulegum segðum (e. regular expressions). Nákvæma lýsingu á greiningaratriðum hlutaþáttarans má finna í svokölluðu þáttunarskema (e. annotation scheme) sem var búið til áður en þáttarinn var þróaður [9]. Lítum t.d. á úttakið úr setningarliðaeiningunni fyrir mörkuðu setninguna úr síðasta kafla: [NP Hlutverk nhen NP] [NP markara nkee NP] [VPb er sfg3en VPb] [VPi að cn greina sng VPi] [NP sérhvert foheo orð nheo NP] [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Setningin hefur hér verið bútuð niður í einstaka setningarliði, eins og nafnliði ([NP ... NP]), sagnliði ([VPx ... VPx]), forsetningarliði ([PP ... PP]) og lýsingarorðslið ([AP ... AP]). Úttakið úr þessari einingu er síðan sent sem inntak inn í eininguna sem greinir setningafræðileg hlutverk. Niðurstaðan er: {*SUBJ> [NP Hlutverk nhen NP] {*QUAL [NP markara nkee NP] *QUAL} *SUBJ>} [VPb er sfg3en VPb] [VPi að cn greina sng VPi] {*OBJ< [NP sérhvert foheo orð nheo NP] *OBJ<} [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Hlutverk markara er að greina sérhvert orð í texta í orðflokk og beygingarleg einkenni Gagnamarkarar læra af fyrirfram markaðri málheild á vélrænan hátt, en málfræðilegir reglumarkarar nota handgerðar reglur til að framkvæma einræðingu
Síða 1
Síða 2
Síða 3
Síða 4
Síða 5
Síða 6
Síða 7
Síða 8
Síða 9
Síða 10
Síða 11
Síða 12
Síða 13
Síða 14
Síða 15
Síða 16
Síða 17
Síða 18
Síða 19
Síða 20
Síða 21
Síða 22
Síða 23
Síða 24
Síða 25
Síða 26
Síða 27
Síða 28
Síða 29
Síða 30
Síða 31
Síða 32
Síða 33
Síða 34
Síða 35
Síða 36
Síða 37
Síða 38
Síða 39
Síða 40
Síða 41
Síða 42
Síða 43
Síða 44
Síða 45
Síða 46
Síða 47
Síða 48
Síða 49
Síða 50
Síða 51
Síða 52
Síða 53
Síða 54
Síða 55
Síða 56
Síða 57
Síða 58
Síða 59
Síða 60
Síða 61
Síða 62
Síða 63
Síða 64
Síða 65
Síða 66
Síða 67
Síða 68
Síða 69
Síða 70
Síða 71
Síða 72
Síða 73
Síða 74
Síða 75
Síða 76
Síða 77
Síða 78
Síða 79
Síða 80
Síða 81
Síða 82
Síða 83
Síða 84

x

Tölvumál

Beinleiðis leinki

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Tölvumál
https://timarit.is/publication/239

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.