Orð og tunga - 01.06.2007, Page 27
17
Anna Björk Nikulásdóttir: Sjálfvirk greining merkingarvensla
Ijóst sé að nokkur fjöldi orða sé tengdur merkingarvenslum við röng
orð.
alls heimt
merkingarliðir 77.348 96,45%
skýringarhlutar 106.972 92,61%
Tafla 1: Heimt MerkOr úr skýringartextum nafnorðafletta íslenskrar
orðabókar
Þar sem hver merkingarliður flettu er greindur sjálfstætt er fjöldi
merkingarliða notaður sem viðmiðun en ekki fjöldi flettna. Hver
merkingarliður getur svo samanstaðið af tveimur eða fleiri skýring-
arhlutum en hver skýringarhluti myndar eigið orðflokkamynstur sem
er grundvöllurinn fyrir greiningu merkingarvensla. Eins og sjá má í
töflu 1 hafa fundist merkingarvensl við 96,45% allra merkingarliða en
það þýðir að við stærsta hluta merkingarliða nafnorðaflettna er hægt
að setja vísun í orð sem stendur í merkingarvenslum við flettuna. Þessi
tala er mikilvæg fyrir hönnuði og höfunda orðabókarinnar til þess að
sjá hve algengt það er að fletta hafi vísun í merkingarlega tengt orð.
Hin talan, hlutfall greindra mynstra, sýnir hve hátt hlutfall orð-
flokkamynstra hlaut greiningu. Með því að skoða þau mynstur sem
MerkOr hafnar mætti annars vegar bæta hönnun tólsins og hins vegar
benda á aðra möguleika til þess að orða skýringar. Skýringarnar verða
þó alltaf skrifaðar með notendur efst í huga og því er ekki við því að
búast að hægt verði að greina allt vélrænt.
fjöldi merkingarliða hlutfall
rétt greining 786 82,13%
ófullnægjandi greining 121 12,64%
röng greining 50 5,22%
Tafla 2: Niðurstöður prófunar (prófunarsett: 1034 merkingarliðir sem
greindir voru handvirkt)
Prófunarsettið er tilviljunarúrtak heildargagnanna, um 1,34%. Þessir
1034 merkingarliðir voru greindir handvirkt og síðan keyrðir saman
við niðurstöður úr MerkOr. Ef merkingarliður telst rétt greindur þýð-
ir það að MerkOr fann öll merkingarvensl sem greind voru handvirkt