Tölvumál

◄ Árgangur ►

◄ Útgáva ►

◄ Article ►

Instructions (PDF)

Tölvumál - 01.02.2008, Síða 64

6 4 | T Ö L V U M Á L Þessi greining sýnir i) að nafnliðirnir tveir [NP Hlutverk nhen NP] [NP markara nkee NP] eru frumlagið ({*SUBJ> ... *SUBJ>}) í setningunni (örin merkir að tilheyrandi sögn birtist hægra megin við frumlagið); ii) að nafnliðurinn [NP markara nkee NP] er eignarfallseinkunn ({*QUAL ... *QUAL}); iii) að nafnliðurinn [NP sérhvert foheo orð nheo NP] er andlag ({*OBJ< ... *OBJ<}) sagnliðarins [VPi að cn greina sng VPi]. Árangur í setningagreiningu er oft mældur með tveimur stærðum. Annars vegar með nákvæmni (e. precision) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í úttaki þáttara, og hins vegar með griphlutfalli (e. recall) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í viðmiðunarmálheild. Viðmiðunarmálheild (e. gold standard) er málheild sem hefur verið rétt setningagreind. Nákvæmni segir þá til um hversu hátt hlutfall af þeim liðum, sem þáttarinn stingur upp á, er í raun rétt og griphlutfall segir til um hversu hátt hlutfall af liðunum kemur fyrir í viðmiðunarmálheildinni. Í þeim tilgangi að birta aðeins eina stærð fyrir mat á árangri þáttara er jafnframt oft notuð stærðin Fmeasure = 2*nákvæmni*griphlutfall / (nákvæmni + griphlutfall). Prófanir hafa sýnt að IceParser nær 96,7% Fmeasure fyrir alla setningarliði í heild sinni en t.d. 95,1% fyrir lýsingarorðsliði, 96,8% fyrir nafnliði og 99,2% fyrir sagnliði [8]. Þessar tölur eru sambærilegar við árangur þáttara fyrir skyld tungumál. Hér ber að nefna að tölurnar eru miðaðar við að inntakið í IceParser sé rétt markaður texti. Þegar um ómarkaðan texta er að ræða þá er t.d. hægt að marka hann fyrst með IceTagger áður en hann er þáttaður. Við það lækkar Fmeasure hins vegar fyrir alla setningarliði úr 96,7% í 91,9%. Lokaorð Í þessari grein hefur verið fjallað um markara og hlutaþáttara fyrir íslenskan texta. Báðar einingarnar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta. Sú þróun á sér m.a. stað í rannsóknarverkefninu „Aukin mörkunarnákvæmni íslensks texta“ sem fékk styrk hjá Rannsóknasjóði Rannís árið 2007. IceTagger og IceParser er hægt að prófa á vefsíðunni: http://nlp.ru.is/icenlp. htm. Heimildir [1] Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson (1999). Tungutækni: Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík. [2] S. Krauwer (2003). The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap. In Proceedings of SPECOM 2003. Moskva. [3] Jörgen Pind (ed.), Friðrik Magnússon og Stefán Briem (1991). Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík. [4] Sigrún Helgadóttir (2007). Mörkun íslensks texta. Orð og tunga 9:75– 107. [5] Hrafn Loftsson (2007). Tagging Icelandic Text using a Linguistic and a Statistical Tagger. In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY. [6] Hrafn Loftsson (2006). Tagging a morphologically complex language using heuristics. In T. Salakoski, F. Ginter, S. Pyysalo and T. Pahikkala (eds.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku. [7] Hrafn Loftsson (2006). Tagging Icelandic text: An experiment with integrations and combinations of taggers. Language Resources and Evaluation, 40(2): 175–181. [8] Hrafn Loftsson og Eiríkur Rögnvaldsson (2007). IceParser: An Incre mental FiniteState Parser for Icelandic. In Proceedings of the 16th Nordic Conference of Computational Linguistics, NODALIDA2007. Tartu. [9] Hrafn Loftsson og Eiríkur Rögnvaldsson (2006) A shallow syntactic annotation scheme for Icelandic text. Technical Report RUTRSSE06004. Department of Computer Science, Reykjavik University. Þáttari er forrit sem framkvæmir setningagreiningu, sem er að greina formgerð setninga og tengsl einstakra hluta þeirra Höfundur hefur þróað svokallaðan stigvaxandi hlutaþáttara fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum Markarar og hlutaþáttarar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta Frekari skýringar á markamenginu má finna í [4]. Allar tölur sem hér eru birtar í tengslum við nákvæmni í mörkun eða þáttun íslensks texta byggja á prófunargögnum sem fengin eru úr textasafni Íslenskrar orðtíðnibókar. Hlutaþáttarinn var þróaður í samvinnu við Eirík Rögnvaldsson, prófessor við Háskóla Íslands. Rannsóknarverkefnið bar heitið „Hlutaþáttun íslensks texta“ og var styrkt af Rannsóknasjóði Rannís, 2006.

Síða 1
Síða 2
Síða 3
Síða 4
Síða 5
Síða 6
Síða 7
Síða 8
Síða 9
Síða 10
Síða 11
Síða 12
Síða 13
Síða 14
Síða 15
Síða 16
Síða 17
Síða 18
Síða 19
Síða 20
Síða 21
Síða 22
Síða 23
Síða 24
Síða 25
Síða 26
Síða 27
Síða 28
Síða 29
Síða 30
Síða 31
Síða 32
Síða 33
Síða 34
Síða 35
Síða 36
Síða 37
Síða 38
Síða 39
Síða 40
Síða 41
Síða 42
Síða 43
Síða 44
Síða 45
Síða 46
Síða 47
Síða 48
Síða 49
Síða 50
Síða 51
Síða 52
Síða 53
Síða 54
Síða 55
Síða 56
Síða 57
Síða 58
Síða 59
Síða 60
Síða 61
Síða 62
Síða 63
Síða 64
Síða 65
Síða 66
Síða 67
Síða 68
Síða 69
Síða 70
Síða 71
Síða 72
Síða 73
Síða 74
Síða 75
Síða 76
Síða 77
Síða 78
Síða 79
Síða 80
Síða 81
Síða 82
Síða 83
Síða 84

Tölvumál

Tölvumál

Beinleiðis leinki