Orð og tunga - 01.06.2007, Page 107
Sigrún Helgadóttir: Mörkun íslensks texta
97
1. Þegar markararnir eru sammála hafa þeir örugglega rétt fyrir
sér.
2. Villur sem markararnir gera eru ólíkar. í mörgum tilvikum hefur
annar markarinn rétt fyrir sér en hinn rangt (Borin skoðaði tvo
markara). Mikilvægt er að sá markari sem gefur lægri nákvæmni
hafi stundum rétt fyrir sér í slíkum tilvikum.
3. Mismunur á milli markaranna er kerfisbundinn á einhvern hátt.
Þennan kerfisbundna mismun má nota til þess að bæta mörkun
með því að sameina niðurstöður markaranna.
Fyrsta tilgátan var ekki prófuð. í töflu 11 sést þó að allir þrír markarar
voru sammála og höfðu rétt fyrir sér í 82,04% tilvika og voru allir sam-
mála en höfðu rangt fyrir sér í 2,21% tilvika, þegar prófaðir voru þrír
markarar (MXPOST, fnTBL og TnT) í íslensku rannsókninni. Það má
því ekki ganga út frá því sem gefnu að niðurstaða sé rétt þó að allir
markararnir séu sammála.
Gerð var tilraun til þess að líta á niðurstöðu kosningar sem útkomu
úr markara. Athugað var hvort nota mætti niðurstöðu MXPOST,
fnTBL eða TnT til þess að bæta þá niðurstöðu. Hæsta nákvæmni,
91,54%, fékkst þar sem kosið var um mörk sem þrír markarar höfðu
úthlutað og vegið með heildarnákvæmni þess markara sem hafði stað-
ið sig best, í þessu tilviki TnT. í töflu 12 sést samanburður á þessari
niðurstöðu og niðurstöðum markaranna þriggja.
Á töflunni sést að niðurstöður MXPOST myndu bæta mestu við
niðurstöðu með kosningu og gefa 96,37% nákvæmni ef tækist að finna
reglur til þess að nýta öll tilvik þar sem MXPOST gefur rétta niður-
stöðu en kosning ranga. Með kosningu er þegar búið að nýta kosti
TnT og því ekki líklegt að unnt sé að gera betur með þeim markara.
Kannað var hvaða reglum mætti beita til þess að nýta þau til-
vik þar sem MXPOST getur gert betur en útkoma úr kosningu gefur.
Skoðuð voru tilvik þar sem mark sem kosning gefur er ólíkt marki
MXPOST. Fundið var hversu oft MXPOST gefur betri niðurstöðu en
kosning í þessum tilvikum.