Orð og tunga - 01.06.2007, Side 109
Sigrún Helgadóttir: Mörkun íslensks texta
99
mark MXPOST umfram útkomu úr kosningu og fékkst þá 92,69% ná-
kvæmni.
8.3 Áhrif markaskrár
Skrá yfir alla greiningarstrengi eða mörk sem koma fyrir í tilteknu
mörkuðu textasafni er oft kölluð markaskrá (e. tagset). Markaskrá Orð-
tíðnibókarinnar er mjög stór og ítarleg eins og sjá má í viðauka A. Sú
greining sem þar er notuð er ekki endilega sú eina rétta og verið getur
að sumar tungutæknilausnir geti nýtt sér greiningu sem er ekki jafn ít-
arleg. Sum tungutækniverkefni gætu þurft mikla nákvæmni í mörkun
en ekki mjög ítarlega greiningu.
Prófað var að einfalda greiningarstrengi á þrennan hátt. Einföld-
unin felst í því að líta aðeins á fyrsta staf í greiningarstreng fyrir atviks-
orð og samtengingar, þ.e. greina þessa orðflokka ekki í undirflokka,
og slá saman fornafnaflokkum en láta greiningu fornafna halda sér að
öðru leyti.
Meðalnákvæmni fnTBL Meðalnákvæmni MXPOST Meðalnákvæmni TnT
Rétt (fj.) % Safn- tíðni (%) Rétt (fj.) % Safn- tíðni (%) Rétt (fj.) % Safn- tíðni (%)
Allur greiningarstrengur réttur 524.201 88,80 88,80 525.863 89,08 89,08 533.403 90,36 90,36
Atviksorð ekki greind 5.533 0,94 89,74 6.286 1,06 90,15 6.837 1,16 91,52
Samtengingar ekki greindar 806 0,14 89,88 1.118 0,19 9034 1.076 0,18 91,70
Öllum fomöfnum slegið saman 600 0,10 89,98 741 0,13 90,46 782 0,13 91,83
Aðeins orðflokkur réttur 42.900 7,27 97,25 40.310 6,83 97,29 37.197 6,30 98,14
Rangur orðflokkur 16.257 2,75 100,00 15.979 2,71 100,00 11.002 1,86 100,00
Samtals 590.297 100,00 590.297 100,00 590.297 100,00
Tafla 13. Nákvæmni mörkunar þegar markaskrá er einfölduð
í töflu 13 er sýnd nákvæmni markaranna þegar mörk eru einfölduð á
þennan hátt. Af töflunni sést að með því að sleppa greiningu atviks-
orða hækkar nákvæmni TnT úr 90,36% í 91,52%, villum fækkar um
12%. Með því að sleppa einnig greiningu samtenginga og slá saman
fornafnaflokkum fer nákvæmni TnT í 91,83%.
Ef aðeins er litið á greiningu eftir orðflokkum nær TnT 98,14% ná-
kvæmni. í sumum tungutækniverkefnum gæti greining eftir orðflokk-
um dugað og þá gefur TnT viðunandi niðurstöðu.
9 Aðferðirnar prófaðar á nýjum textum
Aðferðirnar við mörkun sem hér hefur verið lýst voru prófaðar á text-
um sem ekki voru hluti af textasafni Orðtíðnibókarinnar. Fjögur að-