Þjóðviljinn - 16.11.1984, Blaðsíða 11
Tölvan
leiðréttir
Ritvinnsla
texta
Þaö er athyglisvert aö tölv-
an, sem upphaflega var eins
konar háþróuð reiknivél, hef-
ur þróast æ meir út í hreina
textavinnslu og þar með náð
inn á svið okkar hugvísinda-
manna, sagði Jörgen Pind,
starfsmaður tölvudeildar Orð-
abókar Háskólans, þegar
Þjóðviljinn leittil hansádög-
unum til þess að fræðast um
það hvernig þeirorðabókar-
menn haf a fært sér tölvu-
tækninaínyt.
Við hérátölvudeildinni
erum nú á kafi í verkefni sem
kostað er af IBM og felst í því
að gera tölvuforrit sem getur
leitað uppi villur í prentuðum
texta. Slíkt forrit á að geta
auðveldað mjög alla ritvinnslu
með tölvum og auðveldað
mjög allan prófarkalestur.
Forrit af þessu tagi kom fyrst á
markaðinn fyrir ensku í kring
um 1970 og núeru slíkforrit
að verða til á flestum tungu-
málum í Evrópu.
Hvernig leitar tölvan upp villur
í texta?
Forritið þekkir ákveðinn orða-
forða í öllum beygingarmyndum
og hugsanlegar samsetningar
þessara orða. Komi orðmynd
fyrir í textanum sem forritið
þekki ekki kemur ljósmerki á
skjánum, þannig að hægt er að
leiðrétta um leið og textanum er
rennt í gegn.
300 þúsund
orðmyndir
í orðasafni Orðabókarinnar
eru nú yfir 600.000 orð, sem er
ærið mikið og myndi margfaldast
ef allar beygingarmyndir væru
teknar með. Til samanburðar má
geta þess að í orðabók Árna
Böðvarssonar munu vera um
85.000 orð. Við byrjuðum á því
að gera orðtíðnikönnun og síðan
höfum við valið ákveðinn forða
algengustu orða, sem settur hefur
verið inn í forritið í öllum
Starfsfólk Orðabókarínnar vinnur að gerð leiðróttingarforrits fyrir íslenskt mál.
beygingarmyndum. Auk
beygingarmynda orðsins eru
einnig sett inn fyrirmæli um
hvernig skipta megi orðinu á milli
lína.
Fjöldi orða í leiðréttingarfor-
ritum af þessu tagi er misjafn, en
ætla má að 20-30 þúsund orð séu
hæfilegur fjöldi til almennra
nota. 1 íslensku eru að meðaltali
til 10 ólíkar orðmyndir fyrir hvert
nafnorð og um 20 fyrir sagnorð.
Því má ætla að í íslensku orðas-
afninu verði ekki færri en 300
þúsund orðmyndir. Auk þess
mun forritið þekkja allar eðli-
legar samsetningar þeirra orða
sem fyrir eru í safninu.
Hvað eru margir sem vinna að
þessu verkefni á vegum Orðabók-
Þetta verkefni hófst í janúar sl.
með því að við Sigurður Jónsson
gerðum könnun á því hvort hag-
kvæmt væri að vinna upp forrit af
þessu tagi. í aprílmánuði hófst
svo vinnan að fullu og við höfum
lengst af verið 5, sumir í fullu
starfí Við væntum þess að verk-
inu verði lokið fljótlega upp úr
áramótunum og því ætti forritið
að verða tilbúið til notkunar í
byrjun næsta árs.
Verður prófarkalestur þá
óþarfur eftir tilkomu forritsins?
Nei, forritið mun seint geta
fundið allar villur. J>ar sem forrit-
ið nær einungis til einstakra orða
eða orðamynda, þá nær það t.d.
ekki að finna villur sem eru setn-
ingarfræðilegs eðlis. Forritið lítur
IBonduuell
fegt.
íinnutölva
hagnýta möguleika.
í atvinnulífi og námi.
STG.
onduue
Verð kr.
33.900.-
MODEL
Bondwell 12 er einstök tölva á ótrúlegu verði.
• í ferðatösku með handfangi.
•CP/M 2,2 stýrikerfi.
• 9" amber skjár, 24 línur, 80 tákn.
• 16 forritanlegir notendalyklar.
• synthesizer sem talar ensku.
FORRiT SEM FYLGJA:
• Wordstar • Mailmerge
• Calstar • Datastar • Reportstar
Einnig model 14 CPM 3.0 DSDD.
Tæknilýsing:
Z80A4MHZ.
CP/M 2,2.
64K RAM.
4K ROM.
Diskadrif,
tvö 5,25", 1/2 hæð,
samtals 360 K.
Les diska á drifi B:
Osborn, Kaypro og
Spektravideo.
Tengi:
Tvö RS232C.
Eitt Centronis.
Mál:
195X450X395 mm.
Þyngd11,8 kg.
Aukalega:
íslenskir stafir og forrit.
Bakarí, afiauppgjör,
launaforrit o.s.frv.
Laugavegi 89, sími 13008
ekki á samhengi textans, heldur á
einstök orð. Hins vegar ættu
venjulegar ásláttarvillur að geta
horfið úr textanum með notkun
forritsins. Þá má vænta þess að
þeir sem vinna með sérhæfðan
texta þurfi að bæta við forritið
sérstökum orðalistum. Til dæmis
þyrfti að setja inn lista með er-
lendum mannanöfnum fyrir dag-
blöðin.
Er dýrt að fá aðgang að forriti
sem þessu?
Þar sem IBM stendur allan
straum af kostnaði við vinnslu
þessa forrits og leggur til allan
tækjakost, þá verður það einnig
þeirra að verðleggja forritið, en
það á að rúmast algengum tölv-
um eins og IBM PC. Mér er hins
vegar kunnugt um að leiðrétting-
arforritið fyrir ensku kostar um
50 bandaríkjadali, og það er hægt
að nota við einkatölvur.
Fræðilegur
ávinningur
Hvaða þýðingu hefur þetta
verkefni fyrir Orðabók Há-
skólans?
Orðabókin hefur haft margs-
konar ávinning af þessu verkefni,
og þá ekki hvað síst fræðilegan.
Verkið hefur krafist ýtarlegrar
könnunar á íslenskri beygingar-
og orðmyndunarfræði, og allri
þeirri vitneskju verður hægt að
bæta inn á tölvuskrá eða
orðabanka Orðabókarinnar.
Þá hefur tölvuskrá Orðabókar-
innar nýst vel við þetta verk, til
hennar má meðal annars rekja
upplýsingar um seinni liði orða
með einum áslætti. Þá er sú
reynsla sem starfstólk hér hefur
fengið á sviði máltölvunnar ekki
síður mikilvæg fyrir Orðabókina.
Er tölvuskráning hafin á seðl-
asafni Orðabókarinnar?
Já, tölvuvæðing Orðabókar-
innar byrjaði í fyrrahaust. Við
erum að koma upp tölvuskrá um
öll orð í ritmálssafni hennar, þar
sem fram koma helstu upplýsing-
ar um orðflokk, aldur, elstu
heimild, orðgerð o.s.frv.
Að spyrja
tölvuna
Jörgen Pind sýnir okkur seðla-
safn orðabókarinnar yfir orð sem
byrja á g. Það eru 29.757 seðlar.
Með einföldun áslætti er til dæm-
is hægt að finna hversu mörg
þessara orða koma fyrst fram í
ritverkum Halldórs Laxness. Það
reynast 468 orð. Síðan er tölvan
aftur spurð hversu margar orðs-
amsetningar sem byrja á g endi á
orðinu bylting. Þær reyndust 6
eða 8. Þessar upplýsingar, sem
fengust á nokkrum sekúndum á
tölvu Orðabókarinnar hefðu ekki
verið fáanlegar að öðrum kosti
nema með því að fara í gegnum
og lesa 29.757 seðla í g-safni Orð-
abókarinnar. Það væri líklega
nokkurra vikna verk.
Jörgen Pind tjáði okkur að rit-
málsskrá Orðabókarinnar yrði
væntanlega fullunnin í byrjun
ársins 1986.
-ólg
Föstudagur 16. nóvember 1984 ÞJÓÐVILJINN - SÍÐA 11