Orð og tunga - 01.06.2007, Blaðsíða 97
Sigrún Helgadóttir: Mörkun íslensks texta
87
og reiknað meðaltal fyrir prófunarsöfnin 10 og reyndist það 6,84%.
Markararnir nota mismunandi aðferðir við greiningu óþekktra orða.
TnT-markarinn virðist hafa yfir að ráða betri aðferð en hinir markar-
arnir við að greina óþekkt orð og fær því besta heildarniðurstöðu eða
90,36%.
Vert er að benda á að mark er talið rangt þó að aðeins eitt af 6
atriðum í greiningarstreng sé rangt.
Mismunur á mörkunarnákvæmni TnT og fnTBL er 1,56 prósentu-
stig. Við það að nákvæmni hækkar úr 88,80% í 90,36% fækkar villum
um 14%.
Dreifing orðmynda eftir orðflokkum er ólík meðal óþekktra orða
og allra orða. Nafnorð, lýsingarorð og sagnir, eru að meðaltali um
44,3% af öllum orðum í prófunarsöfnunum en um 95,9% að meðaltali
af óþekktum orðum.
Gert var parað t-próf á hlutfalli rangt greindra orða til þess að
kanna hvort tölfræðilega marktækur munur væri á árangri þeirra
þriggja markara sem náðu bestum árangri. Niðurstaða prófsins fyrir
pörin fnTBL/TnT, MXPOST/TnT og fnTBL/MXPOST er sýnd í töflu
2. Munur á mörkurum er marktækur í öllum tilvikum (p<0,05).
Samanburður t frítölur
fnTBL/TnT 40,16 9
MXPOST/TnT 30,94 9
fnTBL/MXPOST 5,37 9
Tafla 2. Parað t-próf á mismuni á hlutfalli rangt greindra orða
7 Greining á niðurstöðum
Niðurstöður þeirra þriggja markara (TnT, MXPOST og fnTBL) sem
náðu bestum árangri voru skoðaðar nánar.
Fyrir hvern greiningarstreng var reiknuð nákvæmni (precision, P),
griphlutfall (recall, R) og F-gildi. Niðurstöður útreikninganna eru ekki
sýndar hér þar sem þær taka of mikið pláss. í töflu 3 er sýndur sam-
bærilegur útreikningur fyrir orðflokka.
Markararnir hegða sér á líkan hátt nema fyrir þá orðflokka sem
hafa fá orð, þ.e. e (erlend orð), g (greinir) og x (ógreint). TnT fær t.d.
hærri nákvæmni en griphlutfall fyrir greininn þar sem markarinn
greinir tiltölulega fá orð sem greini en MXPOST fær hærra griphlutfall