Orð og tunga - 01.06.2007, Qupperneq 98
88
Orð og tunga
en nákvæmni þar sem sá markari greinir fleiri orð sem greini en ættu
að fá þá greiningu.
Oröflokkar Fjöldi í safni fnTBL MXPOST TnT
r R F (0=1) R r F (/3=1) i' R i FW-l)
a (atviksorð) 116.112 98,02 98,31 98,16 97,53 98,25 97,89 98,04 98,11 98,07
c (samtengingar) 60.256 98,64 99,05 98,84 98,39 98,95 98,67 98,41 98,92 98,67
e (erlend orð) 411 54,20 37,71 44,48 72,19 56,20 63,20 85,53 63,26 72,73
f (fornöfn) 74.315 98,99 98,71 98,85 99,14 98,25 98,69 9801 98,84 98,82
g (greinir) 632 82,15 84,49 83,31 78,77 87,50 82,91 94,22 77,37 84,97
1 (lýsingarorð) 35.669 89,69 86,15 87,88 88,90 86,00 87,43 93,48 91,74 92,60
n(nafnorð) 122.621 96,31 96,73 96,52 96,63 96,98 9600 98,48 98,57 9803
s (sagnorð) 103.136 96,54 97,00 96,77 97,27 97,52 9709 97,76 98,22 97,99
t (töluorð) 5.901 92,85 95,03 93,93 94,44 93,90 94,17 95,02 93,12 94,06
x (ógreint) 127 63,64 44,09 52,09 70,49 33,86 45,74 58,40 57,48 57,94
Tafla 3. Nákvæmni (P), griphlutfall (R) og F-gildi fyrir orðflokka
í töflu 4 er griphlutfall greint í sundur eftir því hvort mörkurunum
tekst að greina öll atriði í greiningarstreng rétt eða a.m.k. orðflokk-
inn rétt. Hlutfallstölur eru reiknaðar af heildarfjölda lesmálsorða í orð-
flokki í safninu.
Fyrsti dálkur fyrir hvern markara sýnir hlutfall rétt greindra
strengja af heildarfjölda slíkra strengja í safninu, annar dálkur sýnir
hlutfall þar sem orðflokkur er réttur en einhver greiningaratriði röng
og síðasti dálkurinn sýnir summu þessara dálka sem er griphlutfallið
fyrir orðflokkinn eins og sýnt er í töflu 3. Fyrir utan sjaldgæfa og erfiða
orðflokka (e, g og x) virðast allir markararnir eiga í mestum erfiðleik-
um með að greina lýsingarorð rétt. Þetta virðist eiga við um orðflokk-
inn sjálfan og einnig virðist erfitt að greina rétt hinar ýmsu greining-
armyndir. Lýsingarorð í íslensku geta fræðilega haft 120 beygingar-
myndir. Sumar eru mjög sjaldgæfar þannig að það kemur ekki á óvart
að markararnir eigi erfitt með að búa til reglur um hvernig eigi að
greina þær.
fnTBL MXPOST TnT
Orðflokkur Fjöldi í safni Grein. str. réttur Orðfl. réttur R Grein. str. réttur Orðfl. réttur R Grein. str. réttur Orðfl. réttur R
a (atviksorð) 116.112 9304 4,77 98,31 9203 5,41 98,25 92,22 5,89 98,11
c (samtengingar) 60.256 97,71 1,34 99,05 97,09 1,86 98,95 97,14 1,79 98,92
e (erlend orð) 411 37,71 0,00 37,71 5600 0,00 56,20 63,26 0,00 63,26
f (fomöfn) 74.315 8908 9,33 98,71 88,15 10,10 98,25 89,46 9,38 98,84
g (greinir) 632 66,77 17,72 84,49 66,14 21,36 87,50 64,72 12,66 7707
1 (lýsingarorð) 35.669 64,09 22,05 86,15 66,99 19,01 86,00 7208 18,86 91,74
n (nafnorð) 122.621 78,97 17,76 96,73 80,19 16,79 96,98 84,48 14,09 9807
s (sagnorð) 103.136 9109 5,12 97,00 92,94 4,58 97,52 92,64 5,58 98,22
t (töluorð) 5.901 69,17 25,86 95,03 71,65 22,25 93,90 7304 19,78 93,12
x (ógreint) 127 44,09 0,00 44,09 3306 0,00 33,86 57,48 0,00 57,48
Tafla 4. Sundurliðun griphlutfalls fyrir orðflokka eftir því hvort allur grein-
ingarstrengur er rétt greindur eða a.m.k. orðflokkur. Hlutfallstölur eru reikn-
aðar af fjölda lesmálsorða í hverjum orðflokki í safni