Tölvumál


Tölvumál - 01.02.2008, Qupperneq 63

Tölvumál - 01.02.2008, Qupperneq 63
T Ö L V U M Á L | 6 3 beygingarlegt samræmi ríki á milli frumlags og sagnar, á milli frumlags og sagnfyllingar, innan nafnliða og forsetningaliða o.s.frv. [6]. Mikilvægur hluti af IceTagger er beygingarlegur greinir, IceMorphy, sem giskar á möguleg mörk fyrir óþekkt orð, þ.e. orð sem ekki finnast í orðasafni markarans, og finnur út hvaða mörk fyrir þekkt orð vantar í orðasafnið. Prófanir hafa sýnt að IceTagger nær 91,5% nákvæmni við mörkun sama texta og notaður var við prófanir á gagnamörkurunum og samkvæmt því gerir IceTagger 11,5% færri villur en besti gagnamarkarinn. Nákvæmni IceTagger við mörkun óþekktra orða er um 75% [5, 7]. Samsetning (e. combination) markara skilar oft meiri nákvæmni en fæst með einstökum mörkurum. Ástæðan er sú að mismunandi markarar hafa tilhneigingu til að gera ólíkar villur og þennan mismun er hægt að nýta til að ná meiri nákvæmni. Ein samsetningaraðferð er einföld kosning (e. simple voting). Í henni eru mismunandi markarar látnir greiða atkvæði með marki fyrir sérhvert orð og síðan er það mark valið sem hlýtur flest atkvæði. Með því að setja saman IceTagger og fjóra mismunandi gagnamarkara – og beita einfaldri kosningu – hefur tekist að ná um 93,5% nákvæmni við mörkun íslensks texta [7]. Hlutaþáttari Markmið með vélrænni setningagreiningu eða þáttun (e. parsing) er að greina formgerð setninga og tengsl einstakra hluta þeirra. Þáttari er forrit sem framkvæmir setningagreiningu. Inntak í þáttara er í flestum tilvikum í formi markaðra setninga og úttakið er lýsing á formgerð þeirra og fyrrgreindum tengslum. Setningagreiningu er oftast skipt í tvo yfirflokka. Annars vegar er um að ræða fulla þáttun (e. full parsing), þar sem búið er til fullkomið þáttunartré (e. parse tree) fyrir sérhverja setningu, og hins vegar hlutaþáttun (e. shallow parsing) þar sem setningar eru greindar í setningarhluta án þess að krafist sé að sérhver hluti passi inn í fullkomið þáttunartré. Höfundur hefur þróað svokallaðan stigvaxandi (e. incremental) hlutaþáttara, IceParser, fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum [8]. Þáttarinn samanstendur af röð af stöðuferjöldum (e. finite­state transducers) sem er skipt upp í tvær einingar. Sú fyrri sér um greiningu setningarliða og sú síðari um greiningu setningafræðilegra hlutverka. Í setningarliðaeiningunni sér eitt ferjald um greiningu atviksliða, annað um greiningu lýsingarorðsliða, hið þriðja um greiningu nafnliða o.s.frv. Í seinni einingunni sér eitt ferjald um greiningu frumlaga, annað um greiningu sagnfyllinga, hið þriðja um greiningu andlaga o.s.frv. Sérhvert stöðuferjald setur merki inn í markaðan textann sem táknar upphaf og lok tiltekinna setningarliða eða setningafræðilegra hlutverka. Ferjöldin leita að hlutstrengjum í inntakstextanum, sem merkja skal, með því að nota safn af setningafræðilegum mynstrum sem skilgreind eru með reglulegum segðum (e. regular expressions). Nákvæma lýsingu á greiningaratriðum hlutaþáttarans má finna í svokölluðu þáttunarskema (e. annotation scheme) sem var búið til áður en þáttarinn var þróaður [9]. Lítum t.d. á úttakið úr setningarliðaeiningunni fyrir mörkuðu setninguna úr síðasta kafla: [NP Hlutverk nhen NP] [NP markara nkee NP] [VPb er sfg3en VPb] [VPi að cn greina sng VPi] [NP sérhvert foheo orð nheo NP] [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Setningin hefur hér verið bútuð niður í einstaka setningarliði, eins og nafnliði ([NP ... NP]), sagnliði ([VPx ... VPx]), forsetningarliði ([PP ... PP]) og lýsingarorðslið ([AP ... AP]). Úttakið úr þessari einingu er síðan sent sem inntak inn í eininguna sem greinir setningafræðileg hlutverk. Niðurstaðan er: {*SUBJ> [NP Hlutverk nhen NP] {*QUAL [NP markara nkee NP] *QUAL} *SUBJ>} [VPb er sfg3en VPb] [VPi að cn greina sng VPi] {*OBJ< [NP sérhvert foheo orð nheo NP] *OBJ<} [PP í aþ [NP texta nkeþ NP] PP] [PP í ao [NPs [NP orðflokk nkeo NP] [CP og c CP] [NP [AP beygingarleg lhfosf AP] einkenni nhfo NP] NPs] PP] Hlutverk markara er að greina sérhvert orð í texta í orðflokk og beygingarleg einkenni Gagnamarkarar læra af fyrirfram markaðri málheild á vélrænan hátt, en málfræðilegir reglumarkarar nota handgerðar reglur til að framkvæma einræðingu
Qupperneq 1
Qupperneq 2
Qupperneq 3
Qupperneq 4
Qupperneq 5
Qupperneq 6
Qupperneq 7
Qupperneq 8
Qupperneq 9
Qupperneq 10
Qupperneq 11
Qupperneq 12
Qupperneq 13
Qupperneq 14
Qupperneq 15
Qupperneq 16
Qupperneq 17
Qupperneq 18
Qupperneq 19
Qupperneq 20
Qupperneq 21
Qupperneq 22
Qupperneq 23
Qupperneq 24
Qupperneq 25
Qupperneq 26
Qupperneq 27
Qupperneq 28
Qupperneq 29
Qupperneq 30
Qupperneq 31
Qupperneq 32
Qupperneq 33
Qupperneq 34
Qupperneq 35
Qupperneq 36
Qupperneq 37
Qupperneq 38
Qupperneq 39
Qupperneq 40
Qupperneq 41
Qupperneq 42
Qupperneq 43
Qupperneq 44
Qupperneq 45
Qupperneq 46
Qupperneq 47
Qupperneq 48
Qupperneq 49
Qupperneq 50
Qupperneq 51
Qupperneq 52
Qupperneq 53
Qupperneq 54
Qupperneq 55
Qupperneq 56
Qupperneq 57
Qupperneq 58
Qupperneq 59
Qupperneq 60
Qupperneq 61
Qupperneq 62
Qupperneq 63
Qupperneq 64
Qupperneq 65
Qupperneq 66
Qupperneq 67
Qupperneq 68
Qupperneq 69
Qupperneq 70
Qupperneq 71
Qupperneq 72
Qupperneq 73
Qupperneq 74
Qupperneq 75
Qupperneq 76
Qupperneq 77
Qupperneq 78
Qupperneq 79
Qupperneq 80
Qupperneq 81
Qupperneq 82
Qupperneq 83
Qupperneq 84

x

Tölvumál

Direct Links

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Tölvumál
https://timarit.is/publication/239

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.