Orð og tunga - 01.06.2007, Síða 96
86 Orð og tunga
Fjöldi orða sem TnT greinir rangt sem atviksorð = 11.716-11.451=265
(íp,false positives með orðalagi Manning og Schutze)
Fjöldi orða sem eru atviksorð en TnT greinir sem eitthvað annað =
11.660-11.451=209 (fn =false negatives með orðalagi Manning og
Schiitze)
Þá er
P=tp/(tp+fp)=tp/(valið)=11.451/11.716 = 0,977
.R=tp/(tp+fn)=tp/(það sem átti að velja)=11.451/11.660 = 0,982
F=2*P*R/(P+R)= = 0,980
Þessar stærðir má reikna fyrir hvaða greiningarstreng sem er.
í íslensku hefur ekki skapast sú hefð að gera greinarmun á hittni
(accuracy) og nákvæmni (precision) heldur er orðið nákvæmni notað um
hvort tveggja. Þar sem ekki er hætta á ruglingi er þeirri hefð fylgt í
þessari grein.
6 Prófanir
Allir markararnir sem voru valdir voru þjálfaðir á þjálfunarsöfnunum
10 og prófaðir á samsvarandi prófunarsöfnum. í upphaflegu tilraun-
unum sem voru gerðar 2002-2004 fengust niðurstöður með þremur
mörkurum, TnT, MXPOST og fnTBL. Tilraunin með MBT-markarann
var gerð í nóvember 2005 (Sigrún Helgadóttir og Örvar Hafsteinn
Kárason 2005).
Meðalnákvæmni
Óþekkt Þekkt Öll orð
orð orð
Markari % % %
fnTBL 54,02 91,36 88,80
MXPOST 62,51 91,04 89,08
TnT 71,62 91,74 90,36
MBT 56,86 89,21 87,00
Tafla 1. Niðurstaða af þjálfun og mörkun 10 para skráa
Niðurstöður prófana eru sýndar í töflu 1. Eins og sést á töflunni eiga
markararnir fjórir misjafnlega auðvelt með að greina óþekkt orð, þ.e.
orð sem koma ekki fyrir í viðkomandi þjálfunarsafni og þeir hafa því
ekki séð áður. Fundið var hlutfall óþekktra orða í hverju prófunarsafni