Orð og tunga - 01.06.2015, Page 127
Jón Friðrik Daðason og Kristín Bjarnadóttir
Kvistur: Vélræn stofnhlutagreining
samsettra orða
1 Inngangur
Samsetning orða er mjög virk í íslensku og fjöldi nýrra orða er ótak-
markaður. Þetta hefur vandkvæði í för með sér í máltækni þar sem
máltæknitól eiga í vandræðum með að greina orð sem ekki er að finna
í gagnasöfnunum sem þau nota. Þessi orð eru óþekkt, í máltæknilegu
samhengi, og greining þeirra skilar mun verri niðurstöðu en greining
þekktra orða. Þetta á við um alla sjálfvirka málfræðigreiningu á text-
um. Röng greining óþekktra orða getur valdið því að texti verði að
hluta gagnslaus eða gagnslítill, t.d. þannig að leitarvélar og önnur
tól finni ekki orðmyndir sem eru rangt greindar og þær skili sér því
ekki með öðrum dæmum um orðið. A þennan hátt verður aðgengi
að textunum takmarkað. Hægt er að bæta skilvirkni máltæknitóla
fyrir íslensku verulega með því að skipta samsettum orðum í þekkta
orðhluta með samanburði við stór gagnasöfn um orðaforðann, t.d.
Beygingarlýsingu íslensks nútímamáls með yfir 5,8 milljónum beyging-
armynda (Kristín Bjarnadóttir 2012) og gríðarlega stór textasöfn, t.d.
íslenskan orðasjóð (Erla Hallsteinsdóttir o.fl. 2007) sem er málheild með
textum af íslenskum vefsíðum árin 2005 og 2010, með yfir hálfum
milljarði lesmálsorða.
í máltækniverkefnum hefur almennt reynst vel að skipta óþekkt-
um samsettum orðum í orðhluta, t.d. í vélrænum þýðingum (Brown
2002, Koehn & Knight 2003, Alfonseca o.fl. 2008), upplýsingaheimt
(e. information retrieval) (Hedlund o.fl. 2001, Braschler o.fl. 2003) og
Orð og tunga 17 (2015), 115-132. © Stofnun Ama Magnússonar í íslenskum
fræðum, Reykjavík.