Þjóðviljinn - 16.11.1984, Blaðsíða 11

Þjóðviljinn - 16.11.1984, Blaðsíða 11
Tölvan leiðréttir Ritvinnsla texta Þaö er athyglisvert aö tölv- an, sem upphaflega var eins konar háþróuð reiknivél, hef- ur þróast æ meir út í hreina textavinnslu og þar með náð inn á svið okkar hugvísinda- manna, sagði Jörgen Pind, starfsmaður tölvudeildar Orð- abókar Háskólans, þegar Þjóðviljinn leittil hansádög- unum til þess að fræðast um það hvernig þeirorðabókar- menn haf a fært sér tölvu- tækninaínyt. Við hérátölvudeildinni erum nú á kafi í verkefni sem kostað er af IBM og felst í því að gera tölvuforrit sem getur leitað uppi villur í prentuðum texta. Slíkt forrit á að geta auðveldað mjög alla ritvinnslu með tölvum og auðveldað mjög allan prófarkalestur. Forrit af þessu tagi kom fyrst á markaðinn fyrir ensku í kring um 1970 og núeru slíkforrit að verða til á flestum tungu- málum í Evrópu. Hvernig leitar tölvan upp villur í texta? Forritið þekkir ákveðinn orða- forða í öllum beygingarmyndum og hugsanlegar samsetningar þessara orða. Komi orðmynd fyrir í textanum sem forritið þekki ekki kemur ljósmerki á skjánum, þannig að hægt er að leiðrétta um leið og textanum er rennt í gegn. 300 þúsund orðmyndir í orðasafni Orðabókarinnar eru nú yfir 600.000 orð, sem er ærið mikið og myndi margfaldast ef allar beygingarmyndir væru teknar með. Til samanburðar má geta þess að í orðabók Árna Böðvarssonar munu vera um 85.000 orð. Við byrjuðum á því að gera orðtíðnikönnun og síðan höfum við valið ákveðinn forða algengustu orða, sem settur hefur verið inn í forritið í öllum Starfsfólk Orðabókarínnar vinnur að gerð leiðróttingarforrits fyrir íslenskt mál. beygingarmyndum. Auk beygingarmynda orðsins eru einnig sett inn fyrirmæli um hvernig skipta megi orðinu á milli lína. Fjöldi orða í leiðréttingarfor- ritum af þessu tagi er misjafn, en ætla má að 20-30 þúsund orð séu hæfilegur fjöldi til almennra nota. 1 íslensku eru að meðaltali til 10 ólíkar orðmyndir fyrir hvert nafnorð og um 20 fyrir sagnorð. Því má ætla að í íslensku orðas- afninu verði ekki færri en 300 þúsund orðmyndir. Auk þess mun forritið þekkja allar eðli- legar samsetningar þeirra orða sem fyrir eru í safninu. Hvað eru margir sem vinna að þessu verkefni á vegum Orðabók- Þetta verkefni hófst í janúar sl. með því að við Sigurður Jónsson gerðum könnun á því hvort hag- kvæmt væri að vinna upp forrit af þessu tagi. í aprílmánuði hófst svo vinnan að fullu og við höfum lengst af verið 5, sumir í fullu starfí Við væntum þess að verk- inu verði lokið fljótlega upp úr áramótunum og því ætti forritið að verða tilbúið til notkunar í byrjun næsta árs. Verður prófarkalestur þá óþarfur eftir tilkomu forritsins? Nei, forritið mun seint geta fundið allar villur. J>ar sem forrit- ið nær einungis til einstakra orða eða orðamynda, þá nær það t.d. ekki að finna villur sem eru setn- ingarfræðilegs eðlis. Forritið lítur IBonduuell fegt. íinnutölva hagnýta möguleika. í atvinnulífi og námi. STG. onduue Verð kr. 33.900.- MODEL Bondwell 12 er einstök tölva á ótrúlegu verði. • í ferðatösku með handfangi. •CP/M 2,2 stýrikerfi. • 9" amber skjár, 24 línur, 80 tákn. • 16 forritanlegir notendalyklar. • synthesizer sem talar ensku. FORRiT SEM FYLGJA: • Wordstar • Mailmerge • Calstar • Datastar • Reportstar Einnig model 14 CPM 3.0 DSDD. Tæknilýsing: Z80A4MHZ. CP/M 2,2. 64K RAM. 4K ROM. Diskadrif, tvö 5,25", 1/2 hæð, samtals 360 K. Les diska á drifi B: Osborn, Kaypro og Spektravideo. Tengi: Tvö RS232C. Eitt Centronis. Mál: 195X450X395 mm. Þyngd11,8 kg. Aukalega: íslenskir stafir og forrit. Bakarí, afiauppgjör, launaforrit o.s.frv. Laugavegi 89, sími 13008 ekki á samhengi textans, heldur á einstök orð. Hins vegar ættu venjulegar ásláttarvillur að geta horfið úr textanum með notkun forritsins. Þá má vænta þess að þeir sem vinna með sérhæfðan texta þurfi að bæta við forritið sérstökum orðalistum. Til dæmis þyrfti að setja inn lista með er- lendum mannanöfnum fyrir dag- blöðin. Er dýrt að fá aðgang að forriti sem þessu? Þar sem IBM stendur allan straum af kostnaði við vinnslu þessa forrits og leggur til allan tækjakost, þá verður það einnig þeirra að verðleggja forritið, en það á að rúmast algengum tölv- um eins og IBM PC. Mér er hins vegar kunnugt um að leiðrétting- arforritið fyrir ensku kostar um 50 bandaríkjadali, og það er hægt að nota við einkatölvur. Fræðilegur ávinningur Hvaða þýðingu hefur þetta verkefni fyrir Orðabók Há- skólans? Orðabókin hefur haft margs- konar ávinning af þessu verkefni, og þá ekki hvað síst fræðilegan. Verkið hefur krafist ýtarlegrar könnunar á íslenskri beygingar- og orðmyndunarfræði, og allri þeirri vitneskju verður hægt að bæta inn á tölvuskrá eða orðabanka Orðabókarinnar. Þá hefur tölvuskrá Orðabókar- innar nýst vel við þetta verk, til hennar má meðal annars rekja upplýsingar um seinni liði orða með einum áslætti. Þá er sú reynsla sem starfstólk hér hefur fengið á sviði máltölvunnar ekki síður mikilvæg fyrir Orðabókina. Er tölvuskráning hafin á seðl- asafni Orðabókarinnar? Já, tölvuvæðing Orðabókar- innar byrjaði í fyrrahaust. Við erum að koma upp tölvuskrá um öll orð í ritmálssafni hennar, þar sem fram koma helstu upplýsing- ar um orðflokk, aldur, elstu heimild, orðgerð o.s.frv. Að spyrja tölvuna Jörgen Pind sýnir okkur seðla- safn orðabókarinnar yfir orð sem byrja á g. Það eru 29.757 seðlar. Með einföldun áslætti er til dæm- is hægt að finna hversu mörg þessara orða koma fyrst fram í ritverkum Halldórs Laxness. Það reynast 468 orð. Síðan er tölvan aftur spurð hversu margar orðs- amsetningar sem byrja á g endi á orðinu bylting. Þær reyndust 6 eða 8. Þessar upplýsingar, sem fengust á nokkrum sekúndum á tölvu Orðabókarinnar hefðu ekki verið fáanlegar að öðrum kosti nema með því að fara í gegnum og lesa 29.757 seðla í g-safni Orð- abókarinnar. Það væri líklega nokkurra vikna verk. Jörgen Pind tjáði okkur að rit- málsskrá Orðabókarinnar yrði væntanlega fullunnin í byrjun ársins 1986. -ólg Föstudagur 16. nóvember 1984 ÞJÓÐVILJINN - SÍÐA 11

x

Þjóðviljinn

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Þjóðviljinn
https://timarit.is/publication/257

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.