Tölvumál


Tölvumál - 01.02.2008, Blaðsíða 64

Tölvumál - 01.02.2008, Blaðsíða 64
6 4 | T Ö L V U M Á L Þessi greining sýnir i) að nafnliðirnir tveir [NP Hlutverk nhen NP] [NP markara nkee NP] eru frumlagið ({*SUBJ> ... *SUBJ>}) í setningunni (örin merkir að tilheyrandi sögn birtist hægra megin við frumlagið); ii) að nafnliðurinn [NP markara nkee NP] er eignarfallseinkunn ({*QUAL ... *QUAL}); iii) að nafnliðurinn [NP sérhvert foheo orð nheo NP] er andlag ({*OBJ< ... *OBJ<}) sagnliðarins [VPi að cn greina sng VPi]. Árangur í setningagreiningu er oft mældur með tveimur stærðum. Annars vegar með nákvæmni (e. precision) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í úttaki þáttara, og hins vegar með griphlutfalli (e. recall) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í viðmiðunarmálheild. Viðmiðunarmálheild (e. gold standard) er málheild sem hefur verið rétt setningagreind. Nákvæmni segir þá til um hversu hátt hlutfall af þeim liðum, sem þáttarinn stingur upp á, er í raun rétt og griphlutfall segir til um hversu hátt hlutfall af liðunum kemur fyrir í viðmiðunarmálheildinni. Í þeim tilgangi að birta aðeins eina stærð fyrir mat á árangri þáttara er jafnframt oft notuð stærðin F­measure = 2*nákvæmni*griphlutfall / (nákvæmni + griphlutfall). Prófanir hafa sýnt að IceParser nær 96,7% F­measure fyrir alla setningarliði í heild sinni en t.d. 95,1% fyrir lýsingarorðsliði, 96,8% fyrir nafnliði og 99,2% fyrir sagnliði [8]. Þessar tölur eru sambærilegar við árangur þáttara fyrir skyld tungumál. Hér ber að nefna að tölurnar eru miðaðar við að inntakið í IceParser sé rétt markaður texti. Þegar um ómarkaðan texta er að ræða þá er t.d. hægt að marka hann fyrst með IceTagger áður en hann er þáttaður. Við það lækkar F­measure hins vegar fyrir alla setningarliði úr 96,7% í 91,9%. Lokaorð Í þessari grein hefur verið fjallað um markara og hlutaþáttara fyrir íslenskan texta. Báðar einingarnar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta. Sú þróun á sér m.a. stað í rannsóknarverkefninu „Aukin mörkunarnákvæmni íslensks texta“ sem fékk styrk hjá Rannsóknasjóði Rannís árið 2007. IceTagger og IceParser er hægt að prófa á vefsíðunni: http://nlp.ru.is/icenlp. htm. Heimildir [1] Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson (1999). Tungutækni: Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík. [2] S. Krauwer (2003). The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap. In Proceedings of SPECOM 2003. Moskva. [3] Jörgen Pind (ed.), Friðrik Magnússon og Stefán Briem (1991). Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík. [4] Sigrún Helgadóttir (2007). Mörkun íslensks texta. Orð og tunga 9:75– 107. [5] Hrafn Loftsson (2007). Tagging Icelandic Text using a Linguistic and a Statistical Tagger. In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY. [6] Hrafn Loftsson (2006). Tagging a morphologically complex language using heuristics. In T. Salakoski, F. Ginter, S. Pyysalo and T. Pahikkala (eds.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku. [7] Hrafn Loftsson (2006). Tagging Icelandic text: An experiment with integrations and combinations of taggers. Language Resources and Evaluation, 40(2): 175–181. [8] Hrafn Loftsson og Eiríkur Rögnvaldsson (2007). IceParser: An Incre­ mental Finite­State Parser for Icelandic. In Proceedings of the 16th Nordic Conference of Computational Linguistics, NODALIDA­2007. Tartu. [9] Hrafn Loftsson og Eiríkur Rögnvaldsson (2006) A shallow syntactic annotation scheme for Icelandic text. Technical Report RUTR­SSE06004. Department of Computer Science, Reykjavik University. Þáttari er forrit sem framkvæmir setningagreiningu, sem er að greina formgerð setninga og tengsl einstakra hluta þeirra Höfundur hefur þróað svokallaðan stigvaxandi hlutaþáttara fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum Markarar og hlutaþáttarar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta Frekari skýringar á markamenginu má finna í [4]. Allar tölur sem hér eru birtar í tengslum við nákvæmni í mörkun eða þáttun íslensks texta byggja á prófunargögnum sem fengin eru úr textasafni Íslenskrar orðtíðnibókar. Hlutaþáttarinn var þróaður í samvinnu við Eirík Rögnvaldsson, prófessor við Háskóla Íslands. Rannsóknarverkefnið bar heitið „Hlutaþáttun íslensks texta“ og var styrkt af Rannsóknasjóði Rannís, 2006.
Blaðsíða 1
Blaðsíða 2
Blaðsíða 3
Blaðsíða 4
Blaðsíða 5
Blaðsíða 6
Blaðsíða 7
Blaðsíða 8
Blaðsíða 9
Blaðsíða 10
Blaðsíða 11
Blaðsíða 12
Blaðsíða 13
Blaðsíða 14
Blaðsíða 15
Blaðsíða 16
Blaðsíða 17
Blaðsíða 18
Blaðsíða 19
Blaðsíða 20
Blaðsíða 21
Blaðsíða 22
Blaðsíða 23
Blaðsíða 24
Blaðsíða 25
Blaðsíða 26
Blaðsíða 27
Blaðsíða 28
Blaðsíða 29
Blaðsíða 30
Blaðsíða 31
Blaðsíða 32
Blaðsíða 33
Blaðsíða 34
Blaðsíða 35
Blaðsíða 36
Blaðsíða 37
Blaðsíða 38
Blaðsíða 39
Blaðsíða 40
Blaðsíða 41
Blaðsíða 42
Blaðsíða 43
Blaðsíða 44
Blaðsíða 45
Blaðsíða 46
Blaðsíða 47
Blaðsíða 48
Blaðsíða 49
Blaðsíða 50
Blaðsíða 51
Blaðsíða 52
Blaðsíða 53
Blaðsíða 54
Blaðsíða 55
Blaðsíða 56
Blaðsíða 57
Blaðsíða 58
Blaðsíða 59
Blaðsíða 60
Blaðsíða 61
Blaðsíða 62
Blaðsíða 63
Blaðsíða 64
Blaðsíða 65
Blaðsíða 66
Blaðsíða 67
Blaðsíða 68
Blaðsíða 69
Blaðsíða 70
Blaðsíða 71
Blaðsíða 72
Blaðsíða 73
Blaðsíða 74
Blaðsíða 75
Blaðsíða 76
Blaðsíða 77
Blaðsíða 78
Blaðsíða 79
Blaðsíða 80
Blaðsíða 81
Blaðsíða 82
Blaðsíða 83
Blaðsíða 84

x

Tölvumál

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Tölvumál
https://timarit.is/publication/239

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.