Orð og tunga - 01.06.2007, Qupperneq 113
Sigrún Helgadóttir: Mörkun íslensks texta
103
Þessar niðurstöður benda til þess að nauðsynlegt sé að bæta ár-
angur mörkunar óþekktra orða til þess ná viðunandi árangri í mörkun
texta. Ein leið til þess að gera það er að hafa til umráða umfangsmikl-
ar orðaskrár þar sem fram koma beygingarmyndir sem flestra orða,
mörk þeirra og hlutfallsleg tíðni einstakra greiningarmynda. Nota má
Beygingarlýsingu íslensks nútímamáls (Kristín Bjarnadóttir 2004), sem
einnig var gerð var fyrir styrk frá tungutækniverkefni menntamála-
ráðuneytisins, sem efnivið í slíka orðaskrá. Einnig er nauðsynlegt að
hafa tiltækar skrár með ýmiss konar sérnöfnum svo sem mannanöfn-
um, nöfnum fyrirtækja og stofnana og örnefnum. Einnig væri æskilegt
að kanna frekar hvers konar markaskrá sé heppileg fyrir hin ýmsu
verkefni.7
Aðferðirnar voru einnig prófaðar á textum sem voru ekki hluti af
textasafni Orðtíðnibókarinnar. Þá kom í ljós að TnT-markarinn nær
bestum árangri við mörkun allra textanna. Aðrir markarar náðu svo
lélegum árangri að ekki reyndist unnt að bæta niðurstöðu mörkunar
með því að nýta þá.
Heimildir
Borin, Lars. 2000. Something borrowed, something blue: Rule-based combination of
POS taggers. Second lnternntional Conference on Language Resources and Evaluation,
Athens 31 May - 2 June, 2000, bls. 21-26.
Brants, Thorsten. 2000a. TnT - A Statistical Part-of-Speech Tagger. Proceedings of the
Sixth Applied Natural Language Processing Conference ANLP-2000, bls. 224-231.
Seattle, Washington, USA.
Brants, Thorsten. 2000b. TnT - A Statistical Part-of-Speech Tagger. Version 2.2.
http://www.coli.uni-sb.de/~thorsten/tnt/
Brill, Eric. 1994. Some Advances in Rule-Based Part of Speech Tagging. Proceedings of
the i2th National Conference on Artificial lntelligence (AAAl-94), bls. 722-727. Seattle,
Washington.
Brill, Eric. 1995. Transformation-Based Error-Driven Leaming and Natural Language
Processing: A Case Study in Part of Speech Tagging. Computational Linguistics,
December 1995: 543-563.
Daelemans, Walter, Jakub Zavrel, Ko van der Sloot, and Antal van den Bosch. 2003.
MBT: Memory-Based Tagger, Reference Guide. ILK Technical Report 03-13,
http://ilk.uvt.nl/doivnloads/pub/papers/ilk.0313.pdf
7Eftir að þessu verki lauk formlega bjó Hrafn Loftsson (2006) til málfræðilegan
reglumarkara 2004-2005 og notaði texta íslenskrar orðtíðnibókar við prófun. Hrafn náði
91,471% nákvæmni í mörkun með reglumarkara sínum (IceTagger). Með því að sam-
eina niðurstöður fjögurra markara náði Hrafn 92,94% mörkunamákvæmni.