Orð og tunga - 01.06.2015, Blaðsíða 140
128
Orð og tunga
orð eða orðhluti: leikmennirnir eru afburða góðir, afburðagóð veiði í
Eystri-Rangá (dæmi úr MIM).
2. Nefning og mörkun: Beygingarmyndir grunnorða eru mun oftar
tvíræðar en beygingarmyndir samsettra orða og því er erfiðara
að finna mörk þeirra og uppflettimyndir. Sama á við um hausa
í samsettum orðum. Möguleg mörk fyrir beygingarmyndina at-
vinnutækifærum eru t.d. níu ef beygingarlegi hausinn færum er
skoðaður en hann getur verið beygingarmynd af nafnorði, lýsing-
arorði og tveimur sögnum. Orðhlutinn tækifærum er hins vegar
einræður, þ.e. þágufall fleirtölu af nafnorði. Meginskilin sýna því
að beygingarlegi hausinn færum er einræður í þessu orði.
3. Þýðingar: Þýðingarforrit geta notað orðskiptingartól til að þýða
óþekkt samsett orð. Þá er æskilegast að skipta orðinu í eins fáa
þekkta hluta og mögulegt er, t.d. miðvikudags+morgunn 'Wednes-
day morning' og athuga hvort orðhlutarnir finnast í tvímálaorða-
bókinni sem notuð er. Skiptingin mið+viku+dags+morgunn 'mid
week day morning' skilar ekki góðri niðurstöðu þarna.
4. Talgerving: Til að finna áherslumynstur óþekktra orða er nauð-
synlegt að geta greint meginskil samsettra orða. Ahersla á að vera
á fyrsta atkvæði og síðan á fyrsta atkvæði á eftir meginskilum.
Orðið skólabókasafn í merkingunni 'bókasafn í skóla' fær þá auka-
áherslu á þriðja atkvæði (skóla+bókasafn) en í merkingunni 'safn
skólabóka' væri aukaáherslan á fimmta atkvæði (skólabóka+safn).
7 Lokaorð
Kvistur hefur þá sérstöðu meðal orðskiptingartóla að skila tvíunda-
trjám um samsett orð í stað þess að greina orðin aðeins í orðhluta,
án orðgerðar. Upprunalegt markmið með gerð Kvists var að fækka
óþekktum orðum í textum og bæta með því árangur í íslenskum
máltækniverkefnum. Niðurstaða af prófunum sýnir að gera má ráð
fyrir allt að 41,1% fækkun á óþekktum orðum en til glöggvunar á
umfanginu eru óþekkt lesmálsorð í Islenskum orðasjóði 34.010.620 af
543.365.833 lesmálsorðum alls (6,3%, sjá Töflu 1). Þetta hlutfall virð-
ist e.t.v. ekki mjög hátt en villufjöldinn, sem það getur leitt af sér, er
þó verulegur þar sem villa í greiningu uppflettimynda (nefningu)
getur t.d. haft keðjuverkandi áhrif. Hugmyndin er að nota Kvist sem
hluta af ýmsum máltækniverkefnum, t.d. við nefningu, orðtöku og