Orð og tunga - 01.06.2015, Page 141
Jón Friðrik og Kristín: Kvistur: Vélræn stofnhlutagreining
129
villuleiðréttingu og þess er rétt að geta að hann er mjög mikilvægur
hluti Skramba, leiðréttingarforrits Jóns Friðriks Daðasonar, sem m.a.
er notað til þess að leiðrétta nútímamálstexta, ljóslesna texta og til þess
að færa texta frá ýmsum tímum til nútímastafsetningar (Jón Friðrik
Daðason o.fl. 2014). Ætlunin er að bæta Kvist til fullvinnslu á formlegri
orðgreiningu á lesmálsorðum í texta. Með því að nýta orðhlutana til
áframhaldandi vinnslu verður gagnaskortur vonandi minna vanda-
mál en sum samsett orð eru mun algengari sem hluti af samsetningum
en sem sjálfstæð orð. I öllu þessu styðja máltækniverkefnin hvert ann-
að. Kvistur skilar mikilvægu viðbótarefni í BIN, nefningin batnar og
óþekktu orðunum fækkar.
Framtíðin í þróun Kvists felst í möguleikum á tengslum við merk-
ingargreind orðasöfn, t.d. við Orðanet Jóns Hilmars Jónssonar og
Þórdísar Úlfarsdóttur (Jón Hilmar Jónsson 2012) og Merkingarbrunn
Önnu Bjarkar Nikulásdóttur (Anna Björk Nikulásdóttir og Matthew
Whelpton 2010). Með því að nýta merkingargreiningu og merking-
arflokkun sem þar er að finna er t.d. hægt að leggja til atlögu við
rannsókn á merkingarvenslum í samsettum orðum. Þá yrði t.d. auð-
veldara að greina einstaka liði í orðum, svo sem önd og andi í anda-
hyggjumaður. Þar opnast nýr heimur sem ekki verður útlistaður hér
en til skýringar má hugsa sér að merkingarflokkun liða myndi leiða
líkur að því að orðið alþingismaur væri ritvilla fyrir alþingismaður
og skiptingin úran+auðgun væri betri en úra+nauðgun. Þetta liggur í
augum uppi fyrir fólk en tölvur þurfa líka að kunna á þessu skil.
Heimildir
Adda-Decker, M., G. Adda og L. Lamel. 2000. Investigating text normalization
and pronunciation variants for German broadcast transcription. Proceed-
ings oflCSLP, bls. 66-269.
Alfonseca, E., S. Bilac og S. Pharies. 2008. German Decompounding in a
Difficult Corpus. í: A. Gelbukh (ritstj.). Computational Lmguistics and Intel-
ligent Text Processing. Vol. 4919, bls. 128-129. Berlín/Heidelberg: Springer.
Anna Björk Nikulásdóttir og Matthew Wlrelpton. 2010. Extraction of Se-
mantic Relations as a Basis for a Future Semantic Database for Icelandic.
Proceedings of 7th SaLTMiL Workshop on Creation and Use of Basic Lexical
Resources for Less-Resourced Languages (Workshop 22 of 7th Language Re-
sources and Evaluation Conference), bls. 33-39. Valletta.
Beygingarlýsing íslensks nútímamáls (BIN). Ritstj. Kristín Bjarnadóttir. bin.
arnastofnun.is.