Orð og tunga - 01.06.2007, Page 103
Sigrún Helgadóttir: Mörkun íslensks texta
93
Orðasafnið var gert þannig að búinn var listi yfir orð í hverju prófun-
arsafni sem voru óþekkt miðað við samstætt þjálfunarsafn og listarnir
síðan sameinaðir í eitt safn. Síðan var tekið annað hvert orð úr þessu
safni og notað sem viðbótarorðasafn. Safnið ætti að geyma um helm-
ing óþekktra orða í hverju prófunarsafni. í töflu 9 sést niðurstaða fyrir
mörkun með þessu orðasafni. Til samanburðar eru tölur fyrir mörkun
án orðasafns hafðar með í töflunni.
Meðalnákvæmni án orðasafns Meðalnákvæmni með orðasafni*
Óþekkt Þekkt Öll orð Óþekkt Þekkt Öll
orð orð orð orð orð
Markari % % % % % %
fnTBL 54,02 91,36 88,80 70,44 91,50 90,06
TnT 71,62 91,74 90,36 86,31 91,93 91,54
*Notað er orðasafn sem hefur um helming þeirra orða sem álitin eru óþekkt
frá sjónarhóli hvers prófunarsafns
Tafla 9. Niðurstaða af þjálfun og mörkun 10 para skráa
Mörkun óþekktra orða batnar umtalsvert og hefur það áhrif á heild-
arniðurstöðu. Mörkun þekktra orða batnar einnig aðeins og er það
sennilega afleiðing af bættri mörkun óþekktu orðanna. Þegar fleiri
óþekkt orð fá rétta greiningu gefa þau betri vísbendingar um rétta
mörkun þekktu orðanna í kring. Heildarnákvæmni með mörkun
fnTBL hækkar meira en heildarnákvæmni með TnT. Ástæðan gæti
verið sú að fnTBL-markarinn virðist eiga erfiðara með að marka
óþekkt orð og þess vegna batnar mörkun óþekktra orða ef orðasafn er
til staðar til þess að greina þau. Með því að nota viðbótarorðasafn nær
TnT-markarinn 91,54% nákvæmni og villum fækkar um 12%. Þessar
niðurstöður sýna að mörkun ætti að batna ef unnt er að nota orðasafn.
Þeir markarar sem voru prófaðir nota orðasöfn sem hafa tiltekið snið.
Nauðsynlegt er að í viðbótarorðasafni séu upplýsingar um hlutfalls-
legt vægi mismunandi greiningarstrengja þeirra orðmynda sem geta
haft fleiri en einn greiningarstreng.
8.2 Sameina niðurstöður markara
Nefna má þrjár aðferðir sem koma til greina við að sameina niðurstöð-
ur tveggja eða fleiri markara.
1. Kosið er um hvaða markari er valinn