Orð og tunga - 01.06.2002, Síða 16
6
Orð og tunga
á prófunarsafnið. Þá tókst því að fækka röngum greiningum niður í 1026, þannig að
91,5% greiningarstrengja voru réttir.
Síðan gerðum við tilraunir með að minnka markaskrána, þ.e. einfalda greininguna
nokkuð, og tókum út upplýsingar um fallstjórn sagna og forsetninga. Ástæðan fyrir
því er sú að þetta eru atriði sem vanalega eru ekki tiltekin í málfræðilegri greiningu,
og þau verða væntanlega ekki heldur fyrir hendi í þeirri beygingarlýsingu sem við
vonumst til að geta notað þegar þar að kemur. Við þetta fækkaði tvíræðum greiningum
í prófunarsafninu talsvert, þannig að lagt var upp með 89% ótvíræða greiningu þar.
Forritið var svo keyrt þrisvar á þjálfunarsafnið og lærði alls 339 reglur. Þær reglur voru
svo keyrðar á prófunarsafnið og fækkuðu röngum greiningum í 616. Það þýðir að 95%
greiningarstrengja eru orðnir réttir.
Þetta er að okkar mati mjög góður árangur af fyrstu tilraun. Þó verður að hafa í
huga að eftir því sem hlutfall réttra greiningarstrengja er orðið hærra verður erfiðara að
bæta niðurstöðuna. Það er enn langur vegur upp í 98% rétta greiningu, en hærra verður
tæplega komist. Ástæðan fyrir því er sú að eftir það fer málfræðinga að greina á. Er
sem t.d. til vísunarfomafn eða tilvísunartenging? Er gcer atviksorð eða nafnorð? Er alltaf
hægt að greina hvort sögn er í framsöguhætti eða viðtengingarhætti? O.s.frv.
Við höfum líka séð það á tilraunum sem við höfum gert að nákvæm greining hefur
bæði kosti og galla. Það er t.d. oft erfitt að greina fallstjórn sagna og forsetninga, og
margar villur í fyrstu greiningu okkar stöfuðu af því að fallstjórnin var rangt greind.
En ef það tekst að greina fallstjórnina, þá kemur sú greining að miklum notum við
greiningu á falli orðanna sem þessar sagnir og forsetningar stýra.
3.3 Reglur og villur
Lítum nú aðeins á þær reglur sem markarinn dró út úr þjálfunarsafninu. í (8) sjáum við
nokkur dæmi um reglur sem hann lærði í seinni tilrauninni.
(8) tag:sfg3eþ>sfgleþ <- tag: fplen@ [-1,-2] o
tag:cn>c <- tag:svg3en@ [1,2] o
tag:cn>c <- tag:svg3eþ@ [1,2] o
tag:af>fplfn <- wd:við@[0] & tag: sfglf n@ [1] o
tag:sfg3en>sfglen <- tag: fplen@ [-1,-2] o
tag:cn>c <- tag:sfg3eþ@ [1,2] o
tag:af>fplfn <- wd:við@[0] & tag: sfglfþ@ [1] o
tag:sfg3eþ>sfgleþ <- tag: fplen@ [1] o
tag:svg3eþ>svgleþ <- tag:fplen@[-1] o
tag:fpken>fpkeo <- tag:af@[-l] o
tag:cn>c <- tag: sfg3en@ [1,2] o
tag: sfg3en>sfg2en <- tag: fp2en@ [-1,-2] o
tag: ssg>sþghen <- wd:var@[-1,-2] o
tag: foheþ>lheþsf <- wd:einu@[0] & wd:í@[-l] o
tag:fahen>faheo <- tag:af@[-l] o
tag:af>fplfn <- wd:við@[0] & tag: sfglfn® [-1] o
Fyrsta reglan segir: Breytið greiningunni sögn, framsöguháttur, germynd, þriðja per-
sóna, eintala, þátíð í sögn, framsöguháttur, germynd, fyrsta persóna, eintala, þátíð ef
greining næsta eða þarnæsta orðs á undan er fornafn 1. persónu, eintala, nefnifall -