Orð og tunga - 01.06.2015, Síða 129
Jón Friðrik og Kristín: Kvistur: Vélræn stofnhlutagreining
117
öðrum verkefnum skiptir sjálft orðhlutatréð máli, t.d. við að ákvarða
merkingu orðs í vélrænni þýðingu.
Efnisskipan greinarinnar er á þessa leið: I 2. kafla er stutt lýsing á
samsettum orðum í íslensku, m.t.t. þess sem máli skiptir í orðhluta-
greiningunni, í 3. kafla er fjallað um aðferðir við vélræna orðskiptingu,
í 4. kafla er aðferðafræði við orðskiptinguna í Kvisti lýst og í 5. kafla er
aðferðin síðan metin með samanburði við handgreind gögn. 16. kafla
er fjallað um kostina sem felast í því að geta ákveðið hversu fíngreind
skiptingin á að vera, m.t.t. verkefna. Niðurstöður og hugleiðingar um
áframhaldandi vinnu eru í 7. kafla.
2 Yfirlit um samsett orð í íslensku
Reglur um samsett orð í íslensku eru gríðarlega virkar og hlutfall
samsettra orða er hátt í íslenskum textum. í Marknðri íslenskri mál-
heild (MÍM) (Sigrún Helgadóttir o.fl. 2012) eru t.d. 75,4% allra þekktra
orðmynda samsett orð en alls eru u.þ.b. 25 milljónir lesmálsorða í
MÍM. Reglur um samsett orð eru endurkvæmar, þannig að í marg-
samsettum orðum geta bæði ákvæði og hausar verið samsett orð og
stofnhlutagreining getur verið tví- eða margræð.31 orðinu skólabókasafn
koma t.d. tvær greiningar til álita, skóla+bókasafn og skólabóka+safn, en
fyrri greiningin ('bókasafn í skóla') er allsráðandi í textum og lesgerð
(lexíkalíseruð) í skilningi orðabókarfræða (Bergenholtz o.fl. 1997:167)
þó að síðari greiningin ('safn skólabóka') sé einnig rétt samkvæmt
orðmyndunarreglum. Fræðilega eru ekki hömlur á fjölda stofnhluta
í samsettum orðum en í reynd eru orð úr fleiri en sex liðum ekki al-
geng (Magnús Snædal 1992). Slík orð koma þó fyrir í gögnunum sem
Kvistur hefur verið þjálfaður á, t.d. í textum úr Islenskum orðasjóði.
Þar er m.a. að finna orðið Alþjóðadýraheilbrigðismálastofmn þar sem
liðirnir eru sjö, sjá Mynd 1.
3 Reglur um afleiðslu og samsetningu eru einnig endurkvæmar, sbr. samsetta orðið
mal+bik, afleiddu sögnina malbik+a, afleidda nafnorðið malbik+un og samsetta orðið
malbikunarvél (sjá Kristínu Bjamadóttu 2005). Kvistur greinir ekki afleiðslu enn
sem komið er. I þessari grein á orðið stofnhluti aðeins við um samsetningarliði í
samsettum orðum, ekki viðskeyti.