Orð og tunga - 01.06.2015, Blaðsíða 139
Jón Friðrik og Kristín: Kvistur: Vélræn stofnhlutagreining
127
í Töflu 6 sést hlutfall réttra skiptinga í grunnorð í 3. dálki (eindir),
hlutfall réttra meginskila í 4. dálki (tvígreining) og hlutfall réttra tví-
undatrjáa í 5. dálki (tré).
Heildarniðurstaða úr Kvisti er metin með tilliti til nákvæmni (e.
precision), heimtar (e. recall) og hittni (e. accuracy). Nákvæmni er hlut-
fall allra orða sem Kvistur hefur skipt sem skila sér sem rétt tvíunda-
tré fyrir samsett orð. Heimt er hlutfall allra samsettra orða í prófun-
argögnunum sem hafa verið rétt greind í tvíundatré. Hittni er hlutfall
rétt greindra orða, bæði óskiptra orða (grunnorða) og samsettra orða
í tvíundatré. Þegar Kvistur er metinn á þennan hátt á öllum prófunar-
textanum úr Wikipediu-greinunum er nákvæmnin 97,6%, heimtin
98,0% og hittnin 99,2%.
6 Stofnhlutatré og skipting eftir þörfum
Upplýsingar þær sem felast í sjálfum stofnhlutatrjánum eru mjög
mikilvægur afrakstur Kvists. Oft kemur skipting á meginskilum
orða að betri notum í máltækniverkefnum en skipting samsettra
orða í línulega röð af stofnhlutum. Þetta á bæði við um þekkt orð
og óþekkt. Orðið aðstoðardagskrárgerðarmaður er t.d. þekkt orð (það
er í BÍN) en skiptingin [[[að\+[stoðar]\+[[[[dag]+[skrár]\+[gerðar]]+[mað-
wr]]] er mun gagnlegri en að+stoðar+dag+skrár+gerðar+maður. Þarna er
það stofnhlutagreiningin sjálf sem skiptir máli við leit og gagnanám
(e. data mining) hvers konar, við þýðingar, við áherslumynstur í tal-
gervingu o.m.fl., þ.e. dagskrá og dagskrárgerð, dagskrárgerðarmaður og
síðan aðstoðarmaður.
I eftirfarandi lista eru nokkur verkefni þar sem aðgangur að öllu
orðgerðartrénu kemur að gagni en hér mætti tína margt fleira til.
1. Leit: Öll skil í samsettum orðum geta komið að gagni við leit og
gagnanám. í málfræðirannsóknum skiptir leit að hausum í orð-
um máli, t.d. til þess að safna dæmum um grunnorð, ásamt öllum
samsetningum af þeim. An orðhlutaskila er erfitt að gera grein-
armun á orðunum ending og sending og það getur verið hjálp-
legt að fá einnig niðurstöður fyrir orð eins og beygingarending og
fleirtöluending (þ.e. að leita að orðhlutanum ending í stofnhluta-
trjám) án þess að með fljóti orð með sama stafastreng þar sem
skilin eru önnur, t.d. heimsending. Leit að ákvæðum getur einn-
ig skilað viðbótarefni um tiltekin orð sem getur orðið notadrjúgt
í gagnaskorti. Ákvæðið afburða er t.d. ýmist ritað sem sjálfstætt