Orð og tunga - 01.06.2007, Qupperneq 106
96
Orð og tunga
Tíðni % Safntíðni %
allir eins og réttir 484.294 82,04 82,04
allir eins og rangir 13.055 2,21 84,25
tnt=fnt=rétt, mxp=rangt 20.783 3,52 87,77
tnt=fnt=rangt, mxp=rétt 8.434 1,43 89,20
tnt=mxp=rétt, fnt=rangt 18.112 3,07 92,27
tnt=mxp=rangt, fnt=rétt 4.850 0,82 93,09
fnt=mxp=rétt, tnt=rangt 12.427 2,11 95,20
fnt=mxp=rangt, tnt=rétt 5.479 0,93 96,13
allir ólíkir, tnt=rétt 4.735 0,80 96,93
allir ólíkir, fnt=rétt 1.847 0,31 97,24
allir ólíkir, mxp=rétt 2.596 0,44 97,68
allir ólíkir og rangir 13.685 2,32 100,00
Samtals 590.297 100,00
Tafla 11. Samanburður á mörkurum
Lars Borin (2000) hefur rannsakað hvernig megi endurnota efnivið og
tungutæknitól, sem þegar eru til, á nýjan hátt. Hann skoðar hvernig
megi nota tilbúna markara á efni sem þeir voru ekki þjálfaðir fyrir og
þar sem ekki er til reiðu þjálfunarsafn. Borin bendir einnig á hvernig
sameina megi niðurstöður markara fyrir þýsku með því að nota mál-
fræðilegar reglur þannig að mörkunarnákvæmni sameinaðra markara
verði hærri en nákvæmni þess markara sem nær mestri nákvæmni.
Þó að þessar aðstæður eigi ekki fullkomlega við íslenska verkefnið
var aðferðin könnuð nánar.
Tvennt þarf að vera til staðar til þess að unnt sé að bæta nákvæmni
með því að sameina niðurstöður tveggja eða fleiri markara.
1. Markararnir gera ekki sömu vitleysurnar, þ.e. þeir bæta hver
annan upp (complementarity)
2. Mismunur er kerfisbundinn en ekki tilviljunarkenndur
Borin flokkar þá aðferð sem hann leggur til sem „knowlege-rich", þ.e.
rannsakendur þekkja gögnin vel. Málfræðilegar reglur eru skilgreind-
ar til þess að nýta mismun markara til þess að sameina niðurstöður
þeirra. Borin setti fram þessar tilgátur: