Tölvumál - 01.02.2008, Blaðsíða 64
6 4 | T Ö L V U M Á L
Þessi greining sýnir i) að nafnliðirnir tveir [NP Hlutverk nhen NP] [NP markara
nkee NP] eru frumlagið ({*SUBJ> ... *SUBJ>}) í setningunni (örin merkir
að tilheyrandi sögn birtist hægra megin við frumlagið); ii) að nafnliðurinn
[NP markara nkee NP] er eignarfallseinkunn ({*QUAL ... *QUAL}); iii) að
nafnliðurinn [NP sérhvert foheo orð nheo NP] er andlag ({*OBJ< ... *OBJ<})
sagnliðarins [VPi að cn greina sng VPi].
Árangur í setningagreiningu er oft mældur með tveimur stærðum. Annars
vegar með nákvæmni (e. precision) = fjöldi réttra liða í úttaki þáttara /
heildarfjölda liða í úttaki þáttara, og hins vegar með griphlutfalli (e. recall)
= fjöldi réttra liða í úttaki þáttara / heildarfjölda liða í viðmiðunarmálheild.
Viðmiðunarmálheild (e. gold standard) er málheild sem hefur verið rétt
setningagreind. Nákvæmni segir þá til um hversu hátt hlutfall af þeim
liðum, sem þáttarinn stingur upp á, er í raun rétt og griphlutfall segir til um
hversu hátt hlutfall af liðunum kemur fyrir í viðmiðunarmálheildinni. Í þeim
tilgangi að birta aðeins eina stærð fyrir mat á árangri þáttara er jafnframt
oft notuð stærðin Fmeasure = 2*nákvæmni*griphlutfall / (nákvæmni +
griphlutfall).
Prófanir hafa sýnt að IceParser nær 96,7% Fmeasure fyrir alla setningarliði
í heild sinni en t.d. 95,1% fyrir lýsingarorðsliði, 96,8% fyrir nafnliði og
99,2% fyrir sagnliði [8]. Þessar tölur eru sambærilegar við árangur þáttara
fyrir skyld tungumál. Hér ber að nefna að tölurnar eru miðaðar við að
inntakið í IceParser sé rétt markaður texti. Þegar um ómarkaðan texta er
að ræða þá er t.d. hægt að marka hann fyrst með IceTagger áður en hann
er þáttaður. Við það lækkar Fmeasure hins vegar fyrir alla setningarliði úr
96,7% í 91,9%.
Lokaorð
Í þessari grein hefur verið fjallað um markara og hlutaþáttara fyrir íslenskan
texta. Báðar einingarnar eru grunneiningar fyrir ýmiss konar máltæknikerfi
og þess vegna er mikilvægt að halda áfram að þróa þær og bæta. Sú þróun
á sér m.a. stað í rannsóknarverkefninu „Aukin mörkunarnákvæmni íslensks
texta“ sem fékk styrk hjá Rannsóknasjóði Rannís árið 2007.
IceTagger og IceParser er hægt að prófa á vefsíðunni: http://nlp.ru.is/icenlp.
htm.
Heimildir
[1] Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson
(1999). Tungutækni: Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík.
[2] S. Krauwer (2003). The Basic Language Resource Kit (BLARK) as the
First Milestone for the Language Resources Roadmap. In Proceedings of
SPECOM 2003. Moskva.
[3] Jörgen Pind (ed.), Friðrik Magnússon og Stefán Briem (1991). Íslensk
orðtíðnibók. Orðabók Háskólans, Reykjavík.
[4] Sigrún Helgadóttir (2007). Mörkun íslensks texta. Orð og tunga 9:75–
107.
[5] Hrafn Loftsson (2007). Tagging Icelandic Text using a Linguistic and a
Statistical Tagger. In Proceedings of Human Language Technologies 2007:
The Conference of the North American Chapter of the ACL. Rochester, NY.
[6] Hrafn Loftsson (2006). Tagging a morphologically complex language
using heuristics. In T. Salakoski, F. Ginter, S. Pyysalo and T. Pahikkala
(eds.), Advances in Natural Language Processing, 5th International
Conference on NLP, FinTAL 2006, Proceedings. Turku.
[7] Hrafn Loftsson (2006). Tagging Icelandic text: An experiment with
integrations and combinations of taggers. Language Resources and
Evaluation, 40(2): 175–181.
[8] Hrafn Loftsson og Eiríkur Rögnvaldsson (2007). IceParser: An Incre
mental FiniteState Parser for Icelandic. In Proceedings of the 16th Nordic
Conference of Computational Linguistics, NODALIDA2007. Tartu.
[9] Hrafn Loftsson og Eiríkur Rögnvaldsson (2006) A shallow syntactic
annotation scheme for Icelandic text. Technical Report RUTRSSE06004.
Department of Computer Science, Reykjavik University.
Þáttari er forrit sem framkvæmir
setningagreiningu, sem er að greina
formgerð setninga og tengsl einstakra hluta
þeirra
Höfundur hefur þróað svokallaðan
stigvaxandi hlutaþáttara fyrir íslenskan
texta sem byggir á endanlegum
stöðuaðferðum
Markarar og hlutaþáttarar eru grunneiningar
fyrir ýmiss konar máltæknikerfi og þess
vegna er mikilvægt að halda áfram að þróa
þær og bæta
Frekari skýringar á markamenginu má finna í [4].
Allar tölur sem hér eru birtar í tengslum við nákvæmni í mörkun eða þáttun íslensks texta byggja á prófunargögnum sem fengin eru úr textasafni Íslenskrar orðtíðnibókar.
Hlutaþáttarinn var þróaður í samvinnu við Eirík Rögnvaldsson, prófessor við Háskóla Íslands. Rannsóknarverkefnið bar heitið „Hlutaþáttun íslensks texta“ og var styrkt af Rannsóknasjóði Rannís, 2006.