Tíminn - 11.01.1976, Blaðsíða 15

Tíminn - 11.01.1976, Blaðsíða 15
14 TÍMINN Sunnudagur 11. janúar 1976. Sunnudagur 11. janúar 1976. TÍMINN 15 Fyrsta verkefni sinnar tegundar á íslandi TÖLVA NOTUÐ í ÞÁGU MÁLVÍSINDA ÞAÐ VERÐUR Ijósara með hverju misserinu sem liður, að tölvur eru til margra hluta nytsamleg- ar. Þó er ekki því að leyna, að mörgum stendur stugg- ur af þessu nútímalega tæki, og sjálfsagt er hægt að beita því bæði til góðs og ills, eins og f lestum eða öll- um mannlegum uppfinn- ingum, en hvað sem því líður, mun öllum bera saman um, að tölvur opni mönnum ýmsar leiðir og geri þeim kleift að glima við verkefni, sem áður var litt eða ekki hugsanlegt að leggja til atlögu við. Kynnin af Styre Allén og starf- semi hans kveiktu áhuga Baldurs Nýjustu fréttir, sem heyrzt hafa af þessum vettvangi eru þær, að nú sé farið að láta tölvur telja orð i bókum. Nú þegar mun lokið einu sliku verkefni, hinu fyrsta sinnar tegundar hér á landi, undir stjórn Baldurs Jóns- sonar lektors. Hér er um svo merkilega nýjung að ræða, aö rétt þótti aö sækja Baldur heim og leita nánari fregna hjá honum. Og fyrsta spurningin, sem lögð var fyrir lektorinn, var þessi: — Hvenær datt þér fyrst i hug að leggja út I slikt verk? — Það er oröið nokkuð langt siðan. I rauninni datt mér þetta fyrst i hug þegar ég var lektor i Gautaborg á árunum 1960-1963. Þá kynntist ég þar ungum Svia, sem heitir Sture Allén, og er nú orðinn prófessor i máltölvunar- fræðum i Gautaborg, og veit ég ekki betur en að það sé fyrsta prófessorsembættið i veröldinni i þeirri grein. Við unnum dálitið saman, meðal annars að sænsk- islenzkri orðabók, sem að visu er ekki enn komin út, en aðrir hafa tekið við þvi verki, og mér skilst, að bókin sé skammt undan. Á þessum árum var Sture Allén að vinna að prófritgerð sinni, hann var að gefa út sænskan texta frá 17. öld, og kom sér upp tæm- andi orðalykli að þessum texta með aðstoð tölvu. Ég vissi um allt þetta, enda kynnti Sture Allén það alltaf öðru hverju. Ég fór svo heim til fslands, en Sture Allén hélt starfi sinu áfram, og margir af fyrrverandi nem- endum minum i Gautaborg urðu nánustu samstarfsmenn hans i hópi sem Sviar kalla Forsknings- gruppen för modern svenska. Þessi hópur hefur svo hlaðið utan á sig, og nú er orðin úr þessu stór stofnun, sem hefur á að skipa um fimmtán manna starfsliði, sem tiðni-orðabók, það er að segja bók um tiðni orða i sænsku nú- timamáli, og efnið i hana var fengið úr sænskum dagblöðum frá árinu 1965. Af þessu verki eru þegar komin þrjú stór bindi, og hið fjóra fjórða er á leiðinni. Þessi stofnun, sem er nú orðin sérstök deild i Gautaborgarháskóla, vinnur að mörgum merkilegum verkefnum auk orðabókarinnar. Hreiðriö eftir ólaf Jóhann Sigurðsson varð fyrir valinu — Kynnin af þessari stórmerku starfsemi Svia hefur auðvitað kveikt áhuga þinn? — Já, það er alveg rétt. Þegar ég kom hingað heim, tók ég við starfi, sem að visu krafðist allrar orku minnar, fyrst við Orðabók Háskólans og siðar varð ég lektor hér og hafði meira en nóg að gera við skyldustörf min, en alltaf gældi ég þó við þá hugsun að geta þreifað mig áfram með tölvu- notkun i þágu málvisinda. Ekki blés þó byrlega fyrir þeirri hugmynd fyrr en i ársbyrj- un 1972, þegar hér tók til starfa rannsóknarstofnun i norrænum málvisindum. Ég lenti i stjórn þeirrar stofnunar, og fljótlega var farið að ræða um viðfangs- efni, sem stofnunin gæti fengizt við, þar á meðal þetta, — tölvu- notkun. Strax i upphafi var ieitað eftir þvi við forstöðumann Reiknistofu Raunvisindastofnunar háskólans, hvort hugsanlega væri einhver áhugi á þvi að þessar tvær stofnanir ynnu saman að tilraun á þessu sviði. Það sem vakti fyrir mér var ekki sizt að kanna tiðni orða i islenzku nútimaritmáli. Þessu var mjög vel tekið, og um það bil ári seinna vorum við komnir af stað með tilraunaverk- efni. — Hvert var það verkefni? — Ég valdi afmarkaðan texta, skáldsöguna Hreiðriö eftir Ólaf Jóhann Sigurðsson. Þegar að þvi kom að velja viðfangsfnið, renndi ég fljótt hýru auga til Ólafs Jó- hanns Sigurössonar. Hann er virtur höfundur, og hlaut m.a.s. sérstaka viðurkenningu fyrir þessa bók. Auk þess þótti þessi texti hæfilega langur sem til- raunaverkefni og nægilega fjöl- breyttur til þess að af honum mætti læra, hvernig taka skyldi á ýmsum vandamálum, sem upp koma, þegar texti er „tölvaður,” eins og ég vil kalla þetta. Siðast en ekki sizt réð það miklu um valið, að ég vissi, að Ólafur Jó- hann Sigurðsson er með allra vandvirkustu rithöfundum á is- lenzka tungu, en mér var áhuga- mál að hafa i höndum vel unnið verk, þegar ég gerði fyrstu til- raun mina i þá átt að „tölva” is- lenzkan texta. Næst var fyrir hendi að ákveða hvernig ætti að gata textann, — að semja götunarlykilinn. Við byrjuðum á götun og forritun á útmánuðum 1973, og héldum þvi áfram fram eftir árinu. Við könnuðum tiðni orða i textanum og einnig var hugmyndin að gera svokallaðan orðstöðulykil að öll- um textanum, eða orðalykil, eins og sumir vilja kannski heldur segja, en á útlendu máli heitir þetta concordance. Með orðstöðu- lykli, er ekki einungis átt við upp- flettiorðið sjálft, ásamt textatil- visun, heldur er lika sýnt, i hvaða samhengi það er. Er Hreiðrið orðmörg bók? — Hvernig reyndist svo Hreiðr- ið ykkur. Er þetta orðmörg bók? — Það fer liklegast eftir þvi, hvaða merkingu við leggjum i orðið „orð”. Það er notað um svo mörg hugtök, að við verðum að byrja á þvi að gera okkur grein fyrir þvi, hvað ég á við, þegar ég tala um „orð”. Til þess að geta notað tölvu við orðtalningu, þarf að skilgreina „orð” handa henni á alveg vélrænan hátt. Það er gert þannig, að allt er kallað „orð”, sem við getum sagt að sé stafaröð á milli bila. Skiptir þá engu máli, hvort um er að ræða tölustafi, bókstafi eða hrærigraut úr tölu- stöfum, bókstöfum og greinar- merkjum. Sérhver röð tákna á milli bila er i þessum skilningi „orð.” Almennt köllum við þetta „ritorð”. Orð i þessari merkingu voru 53.226. Hinsvegar má spyrja, hversu margar mismun- andi orðmyndir hafi verið þarna á ferðinni. Svarið við þvi er 11.341. Ef spurt er, hvort höfundur sé orðmargur, er væntanlega ekki verið að spyrja um orð i þessum merkingum, heldur liklega miklu fremur uppflettiorð i orðabók, það er að segja, hversu oft notar höfundur til dæmis orðið „hest- ur” eða sögnina „að koma”, og allar hugsanlegar beygingar- myndir af þessum tveim orðum og hversu mörg slik orð hann not- ar. Ef átt er við þetta, er ljóst, að orðin i Hreiðrinu eru allmiklu færri en 11.341, en þá hlið málsins höfum við enn ekki kannað. Það er næsta viðfangsefni, en það kostar mikla vinnu að komast að þvi. — Veitir þessi vélræna talning, sem ég vil kalla svo, nokkur svör við þvi, hvort einhver tiltekinn höfundur skrifar auðgt mái eða fátæklegt? — Sú talning, sem þegar hefur farið fram, gerir það ekki, eða að minnsta kosti tæplega, enda var rannsókninni ekki beint að þvi marki. Við teljum, að sú orðtiðnirann- sókn, sem þegar hefur farið fram á Hreiðrinu, sé á svokölluðu rit- orðastigi, en auövitað er hægt að halda henni áfram, og verður vonandi gert, það er að segja að koma henni á æðra 6tig, þannig að ekki séu aðeins talin ritorðin, heldur séu lika talin orð i merk- ingunni uppflettiorö i orðabók. Með þvi móti má e.t.v. komast nær þvi að festa fingur á orðauðgi höfundarins, ef einhver kærir sig um það. En að visu þyrftum við þá að hafa annað til samanburð- ar. Um orðauðgi verks er ekki hægt að dæma með þvi að rann- saka þaö eitt og ekkert annað. Ég sagði áðan, að i bókinni væru 53.226 lesmálsorð, en ekki nema 11.341 orðmynd. Þetta sýnir, að höfundur notar hverja orðmynd allt aö þvi fimm sinnum að meðaltali. Mér þykir liklegt, að það sé lág tala miðað við það, sem gengur og gerist, þó að ég geti ekki fariö nánar út i það. En þess má geta, að 65% orðmynd- anna hafa tiðnina 1. Talið hefur verið, að 100 al- gengustu orð i texta, sem er stærri en 20.000 lesmálsorð, séu þvi sem næst helmingur allra les- málsorða textans. Samkvæmt þvi ætti samanlögð tiðni 100 algeng- ustu orðanna i Hreiðrinu að vera helmingurinn af 53.226 þ.e. 26.613. Svo er þó ekki. 100 algengustu orðin eru ekki nema 47.3% af öll- um textanum. A heimsstyrjald- arárunum siðari lét bandariskur prófessor, Einar Haugen, telja (i höndunum) orðin i Eglu, Njálu og Heimskringlu. Samkvæmt þeirri talningu var sams konar hlutfall i þessum textum 53,2%, en þeir voru alls um 400 þús. lesmálsorð. Þessar niðurstöður benda til öllu meiri tilbreytingar i Hreiðrinu en fornritunum, en hafa verður i huga, að þessar tvær kannanir eru ekki alls kostar sambærileg- ar, svo að betra er að geyma sér ályktanir, þar til viðtækari rannsóknir hafa farið fram. Hvar er islenzkan stödd? — En tölvan opnar leið til ann- arra og viðtækari rannsókna? — Já, og það sem að minum dómi er merkilegast við notkun tölvunnar, er að hún gefur kost á þvi að farið sé inn á rannsóknar- svið, sem annars væri að minnsta kosti mjög torsótt, ef ekki alveg ógerningur að fást við, svo að gagn sé að. Ég á hér meðal annars við ýmis stærðarhlutföll i máli, sem við vitum litið sem ekkert um. — Hvað eru „stærðarhiutföli i málinu”? — Með þessum orðum átti ég til dæmis við það, hversu oft við not- um nafnorð, samtengingar, lýs- ingarorð og svo framvegis. Og þá ekki siður hversu oft við notum nefnifall, þolfall, þágufall og eignarfall. Hvernig vegnar þessum föllum okkar? Ef til vill eitt eða fleiri þeirra i hættu, eða jafnvel á þeirri leið að deyja út? Eða er tiðni þeirra hin sama og var á gullöld bókmennta okkar? Um fjölmargt fleira mætti spyrja, ég nefndi aðeins dæmi, en þetta eru atriði, sem okkur varð- ar um, og það ekki svo litið, ef okkur er á annað borð hugleikið að halda tungu okkar og stuðla að viðgangi hennar. Að visu væri hægtað rannsaka þetta með venjulegri handavinnu, eins og flest annað, sem gert er með tölvu, en það er bara svo óheyrilegt verk, að segja má að alls ekki sé leggjandi út i það nema með aðstoð véla. — Þannig væri hægt að fá að vita á hvaða vegi málið vSeri statt? — Já, einmitt. Ég held, að ef unniðværiaðslikum rannsóknum á máli, bæði nú og frá eldri tima- bilum, þá væri hægt að komast að ýmsu, sem varpa myndi ljósi á málþróunina, eins og hún hefur verið og eins hvert stefnir á okkar dögum. Gifurleg vinna En þess þurfum viö að vera minnug, að enginn hlutur fæst nema með mikilli vinnu, og þetta er ekkert einyrkjastarf, sem hér er um að ræða, það hef ég sannar- lega fengið að reyna, siðan ég byrjaði á þessu. Sture stiórnar. Þar er nnnið að Þessar þrjár bækur veita sjálfsagt ekki nema takmarkaða hugmynd um það feikilega verk, sem Baldur Jónsson og samverkamenn hans hafa innt af höndum. Lesendur geta séð, að á kilinum stendur „Tíðni orða I Hreiðrinu”, og ef til vill geta þeir lesið þar fleira, ef myndin veröur ve! skýr i biaðinu. Timamynd Róbert. — Þú hefur unnið þetta allt einn? — Já, aðöðru leyti en þvi, að ég hef að sjálfsögðu ekki prentað það sem prentað hefur verið, og ekki heldur bundið bækurnar, en að öðru leyti hef ég unnið einn að þvi að koma orðtiðniskránum út, eftir að vélarnar voru búnar að vinna sitt verk. — Og vélunum hefur auðvitað veriö stjórnað af sérfræðingum? — Já, öll forritavinna og fleira sem beinlmis kom tölvunni við, var unnið áf tveim reiknifræðing- um, þeim Birni Ellertssyni og Sven Þ. Sigurðssyni. Þeirra vinna er orðin óhemjumikil, og sjálfsagt er hlutur þeirra ekki smærri en minn. Vinna þeirra var öldungis ómetanleg og auk þess brautryðjendastarf hér á landi. Rétt er að það komi fram, fyrst þessir hlutir eru til umræðu, að þar sem ég þekki til slikrar starf- semi i nálægum löndum, þar virðist þróunin verða sú, að þeir sem að þessum verkefnum vinna, hnappa sig saman og vinna i hóp- um, og þá risa upp heilar mál- tölvunarstofnanir. Það er vegna þess, að tölvan er svo gifurlega afkastamikil að það er ekki á eins manns færi að hafa af henni full not i þessari grein. Þar þarf marga menn og góða samvinnu. Það, sem mest hefur torveldað okkur störfin, er það, að við höf- um verið hver I sinu horni. Ég hef verið bundinn við skyldustörf min hér i Árnagarði, reiknifræðing- arnir hafa verið á Reiknistofu, og ósjaldan höfum við orðið að bjargast við, að tala saman i sima, þegar við höfum þurft að ná saman. En ef vel ætti að vera þyrftum við auðvitað að geta unn- ið að þessu saman, undir sama þaki. Ég held þvi að ekki fari á milli mála, að einhver skipulags- breyting þurfi að koma til, ef við eigum að geta haldið þessu áfram eins og æskilegt er. Hvaða bókstafir eru algengastir í islenzku nútímaritmáli? — Tölvan er auðvitað tröll- skessan sem mokar. En geröuð þið ekki neitt annað en að telja orðin i Hreiörinu? Skiptuð þið ykkur ekkert af einstökum bók- stöfum? — Jú, við gerðum það. En úr þvi að þú nefndir „tröllskessuna sem mokar”, get ég ekki stillt mig um að hæla þér fyrir það orðalag. Það er einmitt þetta, sem um er að ræða. Tölvan er svo feikilega stórvirk, að sumir hafa óttazt, að tölvurnar kaffæri rannsóknarmennina i gögnum. Vist er sú hætta til, en með góðri dómgreind ætti að vera hægt að varast hana. En svo að ég svari spurningunni beint, þá höfum við athugað ýmislegt fleira en tiðni orða á ritorðastigi i Hreiðrinu. Og ég vænti þess, að við getum gert heildargrein fyrir öllu rannsóknarverkefninu, áður en langt um liður. Þú spurðir um bókstafi. Já, við athuguðum ein- mitt tiðni bókstafa i Hreiðrinu, og ef til vill er sú athugun ekki sizt forvitnileg, þótt gæta verði alls hófst i að draga ályktanir af þessu tilraunaverkefni. — Veiztu, hversu margir bók- stafir eru i Hreiðrinu? — Já, það veit ég. Þeir eru um SSjfP tvö hundruð og fimmtiu þúsund. Það er athyglisvert, hverjir eru algengastir. Ég hef að gamni minu spurt suma kunningja mina og látið þá gizka á algengasta stafinn, og þeim hefur ekki gengið vel að ramba á rétt svar. — Það er bókstafurinn „a”. Hann er algengastur i Hreiðrinu, og liklega i islenzku ritmáli nú á dögum. Þar á eftir kemur „n”, svo „i”, svo „r” og þar næst „s”. — Flestum myndi iiklega verða fyrst fyrir að nefna ,,s”. — Já, einmitt. Og það er lik- lega vegna þess, að þegar menn fletta orðabókum, sjá þeir að mjög mörg orð byrja á „s”, en ekki er einhlitt að lita á hvernig orðin byrja, þvi að þau enda lika einhvern veginn, og i endingum eru stafirnir a, n, i og r einmitt mjög algengir. Hins vegar er „z” einn af fágætustu bókstöfunum, þó að höfundur Hreiðursins noti þann bókstaf samkvæmt gömlu setureglunum. 1 framhaldi af þessu má benda á, að i allri móðurmálskennslu, ekki siztkennslu i stafsetningu, er mikils virði að hafa trausta vitneskju um tiðni orða og fleiré mállegra fyrirbæra. Til marks um það má geta þess, að ráð- stefna um framtið móðurmáls- kennslu, sem haldin var á vegum Skólarannsóknadeildar Mennta- málaráðuúeytisins 25. ágúst 1972 með þátttöku islenzkukennara á öllum skólastigum samþykkti einróma áiyktun, þar sem þeim tilmælum var beint til mennta- málaráðherra, að hann hlutaðist til um, að hafnar yrðu rannsóknir á tiðni orða i islensku máli og Orðabók háskólans fengi að njóta góðs af niðurstöðum þeirra. Könnun Ársæls Sigurðssonar Gildi slikra rannsókna hefur mönnum að visu lengi verið ljóst. Aður en tölvur komu til sögunnar, vann Ársæll heitinn Sigurðsson, siðar skólastjóri, að könnun al- gengustu orða islenzks ritmáls. Það safn, sem hann hafði undir, var um það bil helmingi stærra en það, sem við höfum karinað. Hann var með rúmlega 100 þúsund les- málsorð, en Hreiðrið er rösklega fimmtiu þúsund slík orð. Hins vegar gerðum við ýmislegt fleira en Ársæll, og er það hvorki undrunarefni né heldur sérstak- lega þakkarvert, þar sem við höfðum stórvirka vél i þjónustu okkar. En Arsæll gerði lika ýmis- legt, sem við höfum ekki gert enn. Hann kannaði til dæmis, hvaða orðflokkar væru algengastir, en svo langt erum við ekki komnir. — Var ekki birt skýrsla um rannsókn Ársæls? — Jú, hún birtist i menntamál- um 1940. Rannsókn hans er hin eina þessarar tegundar, sem mér er kunnugt um að gerð hafi verið hér á landi og birt skýrsla um, þangað til við hófumst handa um að telja orð i tölvu. Eitthvað mun að visu hafa verið gert að þvi að telja orð i textum, en mér er ekki kunnugt um að gefin hafi verið út nein skýrsla um slika talningu. Næst verða það ieiðarar blaðanna — Hefur ykkur ekki dottið i hug að rannsaka texta, sem stendur á lægra stigi en sjálft Hreiðrið — cRthvert fistrænasta verk sem skrifað hefur verið á tslandi á slð- ari árum? — Úr þvi að þú spyrð á þessa lund, verð ég að taka það fram, að i vali minu á Hreiðrinu felst ekkert listrænt mat. Þessi saga var valin sem tilraunatexti af öðrum ástæðum, sem ég hefi áður drepið á. En vitanlega kemur engu siður til greina að kanna tiðni orða i textum, sem eru engin skáldverk. Rannsókninni er ekki beint að könnun á list, heldur að könnun máls, hvort sem meðferð þess er talin listræn eða ekki. Hugmynd min var sú, að þetta verk gæti orðið fyrsti visirinn að orðabók, sem greindi frá tiðni orða i islenzku ritmáli nú á dög- um. Sé þetta markmið haft i huga, liggur i augum uppi, að margt fleira þyrfti að kanna, til dæmis málið á islenzkum dag- blöðum. Hugmyndin er að gera einhverja athugun á islenzku dagblaðamáli frá árinu 1970. Ég er þegar byrjaður að undirb. það verk og hef látið gata á spjöld dálitið efni úr Morgunblaðinu árið 1970. En næst hef ég hugsað mér að leggja til atlögu við Timann og Þjóöviljann, ef mér gefst timi og tækifæri til þess að haida þessari starfsemi áfram. — Nú er blaðaefni geysilega fjölbreytt, alltfrá slysafréttum til bókmennta. Verður þú ekki að einangra þig við ákveðna efnis- þætti? — Það er rétt, að efni dagblaða er afar sundurleitt. Mér fannst þvi, eins og allt er i pottinn búið hér, að það sem ég myndi einna helzt ráða við, væru forystugrein- arnar, —■ leiðararnir. Auðvitað væri full ást. til þess að taka ýmislegt annað efni úr blöðunum, en það krefst svo mikilla.r undir- búningsvinnu að velja það, að ég treysti mér ekki til þess, á meðan ég er bundinn við önnur störf, k'ennslu og fleira. — Hefur þú ger.t þér fyrirfram nokkra hugmynd um málblæinn á forystugreinunum? — Nei, ekki beinlinís. Þó er ljóst, að málið' á þeim getur aldrei orðið alveg sambærilegt við islenzkt talmál, — og reyndar má segja það um ritmál yfirleitt, Til dæmis er eitt, sem búast má við að sé sjaldgæft eða nær óþekkt i forystugreinum dagblaöa. Það er fornafnið „þú” eða „þið", og þá sagnmyndir annarrar persónu lika. En slikt er auðvitað mjög al- gengt i talmali. Við getum þvi ekki dæmt talmál eftir þeim upplýsingum, sem við fáum i stjórnmálagreinum blaða. — Annað atriði er blótsyrði, sem eru miklu algengari i talmáli en rit- máli. Af þessu ætti að vera orðið Ijóst, að vál texta til könnunar er mjög vandasamt. Ekki er nóg að velja eingöngu skáldverk, hversu góð sem þau kunna að vera, en menn megadika sýna fyllstu varúð i þvi að sanka að sér textum úr mörgum og óllkum áttum. Svo að ég vitni enn i Sture Allén, þá varaði hann mig einu sinni við sliku, og sjálfur tók hann ein- göngu efni úr sænskum dagblöð- um. Áfram skal haldið — En þig langar sein sagt til þess að halda lengra á þessari braut? — Já, mig langar til þess að safna að minnsta kosti fimm hundruð þúsund lesmálsorðum, en ég er aöeins kominn i rúm fimmtiu þúsund, svo að ég á enn langt i land, áður en ég get farið að gefa út tiðniorðabók. — Við stöndum sem sagt i dyrunum og sjáum inn i heim, þar sem flest er hægt að gera? — Ekki segi ég það nu. Þótt tölvur séu til margra hluta nyt- samlegar, geta þær ekki hvað sem er. Við notkun þeirra verður eins og vant er að forðast bæði of- trú og vantrú. Þær verður að nota af skynsamlegum viti eins og allt annað. — vs Rætt við Baldur Jónsson lektor um tölvunotkunina í þógu málvísindanna

x

Tíminn

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Tíminn
https://timarit.is/publication/50

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.