Orð og tunga - 01.06.1988, Page 200
188
Orð og tunga
hátterni eftir Aldísi Guðmundsdóttur og Jörgen Pind (Reykjavík, 1981) og loks
eru í skránni sl9. safn rúmlega 2.300 orð valin nokkurn veginn af handahófi úr
ritmálsskrá Orðabókar Háskólans.
I töflu 4 er að finna árangurinn af því að keyra patgen á þessum skrám með
þeim mynstrum sem urðu til eftir fyrstu keyrsluna með forritinu. Heildarniður-
stöður verða að teljast viðunandi en ljóst er samt að árangurinn er lakari í nýjum
textum. Orðin í sl9.safn eru þó e.t.v. ekki dæmigerð um þann orðaforða sem
er að finna í venjulegri bók því í ritmálssafni Orðabókarinnar eru orð frá síðustu
fjórum öldum og þar hefur mörgum sjaldgæfum og torkennilegum orðum verið
haldið til haga.
Heiti skrár Réttar Rangar Greinast ekki
orðm.safn 1.788 5 45
98,00% 0,27% 2,50%
orðhí.safn 682 1 21
97,00% 0,14% 3,00%
ibm.safn 362.270 338 5.338
99,00% 0,09% 1,50%
tíðni.safn 113.995 691 5.184
96,00% 0,58% 4,30%
sl9.safn 6.100 443 973
88,00% 6,30% 14,00%
sálfr.safn 2.533 10 63
98,00% 0,39% 2,40%
Tafía 4: Arangurinn eftir fyrri keyrslu patgen.
Er þessari prófun var lokið var safnað saman þeim orðum sem skipt hafði
verið ranglega og orðum sem forritið greindi ekki í þessum textum og þeim bætt
við skrána keyrsla.safn og patgen-forritið keyrt að nýju. Við það fjölgaði
mynstrum úr 3.751 í 4.187. Enn var forritið látið spreyta sig á skránum sex með
þeim árangri sem sést í töflu 5.
Ljóst er að árangurinn er nokkru betri en áður og reyndar alveg fullnægjandi.
Að vísu eru fleiri orð sem greinast ekki (12.311 í seinni keyrslu en 11.624 í fyrri
keyrslunni). Hins vegar er langtum minna um óheimilar skiptingar. Þeim fækkar
úr 1.488 í aðeins 273.
Vafasamt er að hægt sé að ná öllu betri árangri nema með því að láta forritið
glíma við lengri mynstur. Forritið var keyrt á sama hátt á íslensku og ensku,
mynstur voru lengst 8 stafir. Hægt er að hugsa sér að lengja mynstrin og fjölga
umferðum og er þá sennilegt að hægt sé að ná betri árangri en ákveðið var að
láta hér staðar numið að sinni og nota þessi 4.187 mynstur.
Hér skal nú lítillega greint frá tveim tilraunum sem gerðar voru með að setja
texta í TfijX með þessum mynstrum til að lesandinn fái nokkra tilfinningu fyrir
því hve vel þau reynast.
I fyrsta lagi var patgen látið finna allar línuskiptingar í fyrsta kafla í bókinni