Orð og tunga - 01.06.2007, Qupperneq 105
Sigrún Helgadóttir: Mörkun íslensks texta
95
í þessu tilviki mark TnT. Þegar vegið er með nákvæmni hvers marks
fyrir hvern markara er valið það mark sem fær hæsta nákvæmni. Þeg-
ar vegið er með nákvæmni og griphlutfalli er valið það mark sem fær
hæsta summu af nákvæmni þess markara sem leggur markið til og
(1-griphlutfall) marksins hjá þeim mörkurum sem leggja það ekki til.
Óþekkt orð Þekkt orð Öll orð
Aðferð Tíðni % Tíðni % Tíðni %
Alls 40.392 100,00 549.905 100,00 590.297 100,00
MXPOST 25.246 62,50 500.617 91,04 525.863 89,08
fnTBL 21.823 54,03 502.378 91,36 524.201 88,80
TnT 28.919 71,60 504.484 91,74 533.403 90,36
Meirhlutakosning 27.889 69,05 510.903 92,91 538.792 91,27
Vegið með heildamá- kvæmni 29.003 71,80 511.348 92,99 540.351 91,54
Vegið með með nákv. marks 27.808 68,85 511.088 92,94 538.896 91,29
Vegið með nákv. og griphlutfalli. 28.738 71,15 511.440 93,01 540.178 91,51
Vegið með heildamá- kvæmni* 34.331 84,97 512.044 93,12 546.375 92,56
* Kosið um mörk þegar viðbótarorðasafn er notað við mörkun með TnT og fnTBL
Tafla 10. Nákvæmni þriggja markara og nákvæmni sem fæst með
þremur mismunandi aðferðum við að kjósa á milli niðurstöðu mark-
aranna
Einnig var gerð tilraun til þess að kjósa um mörk þegar viðbótarorða-
safn var notað við mörkun með TnT og fnTBL. Neðsta línan í töflu
10 sýnir niðurstöðu þegar vegið er með heildarnákvæmni TnT en þá
fæst 92,56% nákvæmni. í töflu 9 sést að nákvæmni þegar markað er
með TnT og viðbótarorðasafn notað er 91,54%. Með því að kjósa á
milli markaranna fækkar villum um 12% frá þeirri niðurstöðu sem
fæst með TnT eingöngu.
í töflu 11 er niðurbrotinn samanburður á mörkurunum þremur.
Þar sést að líklegast er að TnT gefi rétta niðurstöðu ef markararnir gefa
ólíkar niðurstöður. Af töflunni sést enn fremur að markararnir TnT og
fnTBL eru í einhverjum skilningi líkari heldur en TnT og MXOPOST
eða fnTBL og MXPOST. Þess vegna er líklegt að nota megi niðurstöðu
MXPOST til þess að bæta niðurstöðu mörkunar.