Tölvumál

◄ Volume ►

◄ Issue ►

◄ Article ►

Instructions (PDF)

Tölvumál - 01.02.2008, Page 64

6 4 | T Ö L V U M Á L Þessi greining sýnir i) að nafnliðirnir tveir [NP Hlutverk nhen NP] [NP markara nkee NP] eru frumlagið ({*SUBJ> ... *SUBJ>}) í setningunni (örin merkir að tilheyrandi sögn birtist hægra megin við frumlagið); ii) að nafnliðurinn [NP markara nkee NP] er eignarfallseinkunn ({*QUAL ... *QUAL}); iii) að nafnliðurinn [NP sérhvert foheo orð nheo NP] er andlag ({*OBJ< ... *OBJ<}) sagnliðarins [VPi að cn greina sng VPi]. Árangur í setningagreiningu er oft mældur með tveimur stærðum. Annars vegar með nákvæmni (e. precision) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í úttaki þáttara, og hins vegar með griphlutfalli (e. recall) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í viðmiðunarmálheild. Viðmiðunarmálheild (e. gold standard) er málheild sem hefur verið rétt setningagreind. Nákvæmni segir þá til um hversu hátt hlutfall af þeim liðum, sem þáttarinn stingur upp á, er í raun rétt og griphlutfall segir til um hversu hátt hlutfall af liðunum kemur fyrir í viðmiðunarmálheildinni. Í þeim tilgangi að birta aðeins eina stærð fyrir mat á árangri þáttara er jafnframt oft notuð stærðin Fmeasure = 2*nákvæmni*griphlutfall / (nákvæmni + griphlutfall). Prófanir hafa sýnt að IceParser nær 96,7% Fmeasure fyrir alla setningarliði í heild sinni en t.d. 95,1% fyrir lýsingarorðsliði, 96,8% fyrir nafnliði og 99,2% fyrir sagnliði [8]. Þessar tölur eru sambærilegar við árangur þáttara fyrir skyld tungumál. Hér ber að nefna að tölurnar eru miðaðar við að inntakið í IceParser sé rétt markaður texti. Þegar um ómarkaðan texta er að ræða þá er t.d. hægt að marka hann fyrst með IceTagger áður en hann er þáttaður. Við það lækkar Fmeasure hins vegar fyrir alla setningarliði úr 96,7% í 91,9%. Lokaorð Í þessari grein hefur verið fjallað um markara og hlutaþáttara fyrir íslenskan texta. Báðar einingarnar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta. Sú þróun á sér m.a. stað í rannsóknarverkefninu „Aukin mörkunarnákvæmni íslensks texta“ sem fékk styrk hjá Rannsóknasjóði Rannís árið 2007. IceTagger og IceParser er hægt að prófa á vefsíðunni: http://nlp.ru.is/icenlp. htm. Heimildir [1] Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson (1999). Tungutækni: Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík. [2] S. Krauwer (2003). The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap. In Proceedings of SPECOM 2003. Moskva. [3] Jörgen Pind (ed.), Friðrik Magnússon og Stefán Briem (1991). Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík. [4] Sigrún Helgadóttir (2007). Mörkun íslensks texta. Orð og tunga 9:75– 107. [5] Hrafn Loftsson (2007). Tagging Icelandic Text using a Linguistic and a Statistical Tagger. In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY. [6] Hrafn Loftsson (2006). Tagging a morphologically complex language using heuristics. In T. Salakoski, F. Ginter, S. Pyysalo and T. Pahikkala (eds.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku. [7] Hrafn Loftsson (2006). Tagging Icelandic text: An experiment with integrations and combinations of taggers. Language Resources and Evaluation, 40(2): 175–181. [8] Hrafn Loftsson og Eiríkur Rögnvaldsson (2007). IceParser: An Incre mental FiniteState Parser for Icelandic. In Proceedings of the 16th Nordic Conference of Computational Linguistics, NODALIDA2007. Tartu. [9] Hrafn Loftsson og Eiríkur Rögnvaldsson (2006) A shallow syntactic annotation scheme for Icelandic text. Technical Report RUTRSSE06004. Department of Computer Science, Reykjavik University. Þáttari er forrit sem framkvæmir setningagreiningu, sem er að greina formgerð setninga og tengsl einstakra hluta þeirra Höfundur hefur þróað svokallaðan stigvaxandi hlutaþáttara fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum Markarar og hlutaþáttarar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta Frekari skýringar á markamenginu má finna í [4]. Allar tölur sem hér eru birtar í tengslum við nákvæmni í mörkun eða þáttun íslensks texta byggja á prófunargögnum sem fengin eru úr textasafni Íslenskrar orðtíðnibókar. Hlutaþáttarinn var þróaður í samvinnu við Eirík Rögnvaldsson, prófessor við Háskóla Íslands. Rannsóknarverkefnið bar heitið „Hlutaþáttun íslensks texta“ og var styrkt af Rannsóknasjóði Rannís, 2006.

Page 1
Page 2
Page 3
Page 4
Page 5
Page 6
Page 7
Page 8
Page 9
Page 10
Page 11
Page 12
Page 13
Page 14
Page 15
Page 16
Page 17
Page 18
Page 19
Page 20
Page 21
Page 22
Page 23
Page 24
Page 25
Page 26
Page 27
Page 28
Page 29
Page 30
Page 31
Page 32
Page 33
Page 34
Page 35
Page 36
Page 37
Page 38
Page 39
Page 40
Page 41
Page 42
Page 43
Page 44
Page 45
Page 46
Page 47
Page 48
Page 49
Page 50
Page 51
Page 52
Page 53
Page 54
Page 55
Page 56
Page 57
Page 58
Page 59
Page 60
Page 61
Page 62
Page 63
Page 64
Page 65
Page 66
Page 67
Page 68
Page 69
Page 70
Page 71
Page 72
Page 73
Page 74
Page 75
Page 76
Page 77
Page 78
Page 79
Page 80
Page 81
Page 82
Page 83
Page 84

Tölvumál

Tölvumál

Direct Links