Orð og tunga - 01.06.1988, Blaðsíða 201
Jörgen Pind: Umbrotsforritið TfíX
189
Heiti skrár Réttar Rangar Greinast ekki
orðm.safn 1.781 97,00% 0 0,00% 52 2,80%
ordhí.safn 675 96,00% 0 0,00% 28 3,00%
ibm.safn 361.705 98,00% 100 0,03% 5.903 1,60%
tiðni.safn 113.762 95,00% 140 0,12% 5.417 4,60%
sl9.safn 6.236 88,00% 31 0,44% 837 12,00%
sálfr.safn 2.522 97,00% 2 0,08% 74 2,90%
Tafla 5: Árangurinn eftir seinni keyrslu patgen..
Tölvufraeðaranum eftir höfund þessarar greinax (Jörgen Pind, 1988). í þessum
kafla eru alls 9.507 lesmálsorð, ef marka má wc-forritið í UNIX (en það telur orð
og stafi í skrám). Orðmyndir eru hins vegax 2.480 og í þeim reynast heimilar
orðskiptingar alls vera 2.614. Af þeim finnur Te? 2.515, greinir ekki 99 en setur
inn 12 röng línuskiptingarbönd. Sumar af þessum villum eru í erlendum orðum,
en alls eru villur í 5 íslenskum orðmyndum. Tíðni þeirra er samtals 9 í textanum
og ef gert er ráð fyrir að íslensk lesmálsorð séu um 9.000 í textanum verður villu
vart í einu orði af hverju þúsundi.
Hin tilraunin var sú að láta TgpC setja Njálu í Skírnisbroti. Hér er um að
ræða útgáfu Svarts á Hvítu á Njálu með nútímastafsetningu. Bókin varð alls
258 blaðsíður. Alls var 307 orðum skipt á milli lína eða að meðaltali 1,19 orði
á síðu. Af þeim voru 4 skiptingar rangar. Árangurinn er því 98,6% réttar
skiptingax.
Ekki verður því annað séð en íslenskar línuskiptingar í TfjjX séu býsna góðax
og reyndar snöggtum betri en menn eiga að venjast við vélræna orðskiptingu. I
viðauka 2 í greinarlok er skrá um öll mynstrin 4.187 sem TgX notar.
3.4 Forritinu breytt
Þótt aðferð T^X við að skipta orðum milli lína sé betri en gengur og gerist í
setningarkerfum er eitt sem veldur nokkrum vandræðum í íslensku. I 902. grein
forritsins (Knuth 1986a:380) segir svo: „TgX will never insert a hyphen that
has fewer than two letters before it or fewer than three after it.“ Þetta er ekki
ákjósanlegt þegar íslensk-an á í hlut því þar er algengt að skipta orð-um á und-an
tveim síðustu stöfun-um.
Hér kemur sér vel að hafi menn aðgang að forritinu sjálfu er auðvelt að
breyta því þannig að það skipti einnig þótt aðeins fari tveir stafir á eftir. Gera
þarf þrjár smávægilegar breytingar í greinum 902 og 923 í forritinu; eru þær
sýndar í viðauka 1 í lok greinar.