Tölvumál


Tölvumál - 01.02.2008, Page 64

Tölvumál - 01.02.2008, Page 64
6 4 | T Ö L V U M Á L Þessi greining sýnir i) að nafnliðirnir tveir [NP Hlutverk nhen NP] [NP markara nkee NP] eru frumlagið ({*SUBJ> ... *SUBJ>}) í setningunni (örin merkir að tilheyrandi sögn birtist hægra megin við frumlagið); ii) að nafnliðurinn [NP markara nkee NP] er eignarfallseinkunn ({*QUAL ... *QUAL}); iii) að nafnliðurinn [NP sérhvert foheo orð nheo NP] er andlag ({*OBJ< ... *OBJ<}) sagnliðarins [VPi að cn greina sng VPi]. Árangur í setningagreiningu er oft mældur með tveimur stærðum. Annars vegar með nákvæmni (e. precision) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í úttaki þáttara, og hins vegar með griphlutfalli (e. recall) = fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í viðmiðunarmálheild. Viðmiðunarmálheild (e. gold standard) er málheild sem hefur verið rétt setningagreind. Nákvæmni segir þá til um hversu hátt hlutfall af þeim liðum, sem þáttarinn stingur upp á, er í raun rétt og griphlutfall segir til um hversu hátt hlutfall af liðunum kemur fyrir í viðmiðunarmálheildinni. Í þeim tilgangi að birta aðeins eina stærð fyrir mat á árangri þáttara er jafnframt oft notuð stærðin F­measure = 2*nákvæmni*griphlutfall / (nákvæmni + griphlutfall). Prófanir hafa sýnt að IceParser nær 96,7% F­measure fyrir alla setningarliði í heild sinni en t.d. 95,1% fyrir lýsingarorðsliði, 96,8% fyrir nafnliði og 99,2% fyrir sagnliði [8]. Þessar tölur eru sambærilegar við árangur þáttara fyrir skyld tungumál. Hér ber að nefna að tölurnar eru miðaðar við að inntakið í IceParser sé rétt markaður texti. Þegar um ómarkaðan texta er að ræða þá er t.d. hægt að marka hann fyrst með IceTagger áður en hann er þáttaður. Við það lækkar F­measure hins vegar fyrir alla setningarliði úr 96,7% í 91,9%. Lokaorð Í þessari grein hefur verið fjallað um markara og hlutaþáttara fyrir íslenskan texta. Báðar einingarnar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta. Sú þróun á sér m.a. stað í rannsóknarverkefninu „Aukin mörkunarnákvæmni íslensks texta“ sem fékk styrk hjá Rannsóknasjóði Rannís árið 2007. IceTagger og IceParser er hægt að prófa á vefsíðunni: http://nlp.ru.is/icenlp. htm. Heimildir [1] Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson (1999). Tungutækni: Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík. [2] S. Krauwer (2003). The Basic Language Resource Kit (BLARK) as the First Milestone for the Language Resources Roadmap. In Proceedings of SPECOM 2003. Moskva. [3] Jörgen Pind (ed.), Friðrik Magnússon og Stefán Briem (1991). Íslensk orðtíðnibók. Orðabók Háskólans, Reykjavík. [4] Sigrún Helgadóttir (2007). Mörkun íslensks texta. Orð og tunga 9:75– 107. [5] Hrafn Loftsson (2007). Tagging Icelandic Text using a Linguistic and a Statistical Tagger. In Proceedings of Human Language Technologies 2007: The Conference of the North American Chapter of the ACL. Rochester, NY. [6] Hrafn Loftsson (2006). Tagging a morphologically complex language using heuristics. In T. Salakoski, F. Ginter, S. Pyysalo and T. Pahikkala (eds.), Advances in Natural Language Processing, 5th International Conference on NLP, FinTAL 2006, Proceedings. Turku. [7] Hrafn Loftsson (2006). Tagging Icelandic text: An experiment with integrations and combinations of taggers. Language Resources and Evaluation, 40(2): 175–181. [8] Hrafn Loftsson og Eiríkur Rögnvaldsson (2007). IceParser: An Incre­ mental Finite­State Parser for Icelandic. In Proceedings of the 16th Nordic Conference of Computational Linguistics, NODALIDA­2007. Tartu. [9] Hrafn Loftsson og Eiríkur Rögnvaldsson (2006) A shallow syntactic annotation scheme for Icelandic text. Technical Report RUTR­SSE06004. Department of Computer Science, Reykjavik University. Þáttari er forrit sem framkvæmir setningagreiningu, sem er að greina formgerð setninga og tengsl einstakra hluta þeirra Höfundur hefur þróað svokallaðan stigvaxandi hlutaþáttara fyrir íslenskan texta sem byggir á endanlegum stöðuaðferðum Markarar og hlutaþáttarar eru grunneiningar fyrir ýmiss konar máltæknikerfi og þess vegna er mikilvægt að halda áfram að þróa þær og bæta Frekari skýringar á markamenginu má finna í [4]. Allar tölur sem hér eru birtar í tengslum við nákvæmni í mörkun eða þáttun íslensks texta byggja á prófunargögnum sem fengin eru úr textasafni Íslenskrar orðtíðnibókar. Hlutaþáttarinn var þróaður í samvinnu við Eirík Rögnvaldsson, prófessor við Háskóla Íslands. Rannsóknarverkefnið bar heitið „Hlutaþáttun íslensks texta“ og var styrkt af Rannsóknasjóði Rannís, 2006.

x

Tölvumál

Direct Links

If you want to link to this newspaper/magazine, please use these links:

Link to this newspaper/magazine: Tölvumál
https://timarit.is/publication/239

Link to this issue:

Link to this page:

Link to this article:

Please do not link directly to images or PDFs on Timarit.is as such URLs may change without warning. Please use the URLs provided above for linking to the website.