Morgunblaðið - 13.12.1985, Blaðsíða 30

Morgunblaðið - 13.12.1985, Blaðsíða 30
30 MORGUNBLAÐIÐ, FÖSTUDAGUR13. DESEMBER1985 Jólagjöf Egils — orðaleit í íslendingasögum — eftir Jörgen Pind „Þjófsaugu" eru aðeins nefnd á einum stað í Njálu og reyndar hvergi annars staðar í þeim 14 fslendingasögum sem eru nú komnar á prent í útgáfu Svarts á hvítu. Hins vegar er getið um tvær persónur sem fengu gjafir sem voru sérstaklega nefndar „jóla- gjafir". Arinbjörn hersir gaf Agli Skalla-Grímssyni „slæður gervar af silki og gullsaumaðar mjög“. Síðan er þess getið í Fóstbræðra- sögu að ólafur konungur hafi gefið Sighvati skáldi gullinhjalta í jóla- gjöf. Þetta þykir e.t.v. ekki merki- leg speki, en hitt verður að teljast merkilegt að ný tækni gerir mál- og bókmenntafræðingum, sem og öðrum ritskýrendum, kleift að leita að hvaða orði sem er í öllum íslendingasögunum á örfáum mínútum. í þessari grein verður sagt lítillega frá þeim möguleikum sem tölvutæknin opnar ritrýnend- um, svo og frá þýðingu orðtíðni- kannana fyrir orðabókavinnu, og þá einkum þeim rannsóknum sem fram fara á Orðabók Háskólans. Tæknibyltingar og hugvísindi Þess eru ótal dæmi að margvís- legar tæknibyltingar hafi áhrif á ástundun vísindagreina. Hvers kyns mælitæki hafa haft áhrif á þróun eðlis- og efnafræði svo dæmi sé tekið. Flestar tækninýjungar hafa samt látið hugvísindin ósnortin — þó ekki alveg allar. Prenttæknin hafði t.d. á sínum tíma ómæld áhrif á hugvísindi. Athyglisvert er að nú, þegar prent- tæknin verður fyrir meiri áhrifum af framþróun tækninnar en flestar iðngreinar aðrar, eru hugvísindi enn í þeim sporum að tengjast tæknibyltingu. Hér er vitaskuld átt við tölvu- byltinguna margumræddu. Hún hefur gjörbreytt prenttækninni og mun vafalítið einnig hafa djúp áhrif á ástundun hugvísinda. Þetta er sökum þess að tölvur hafa þá sérstöðu meðal véla að geta unnið með og úr textum, sem er vitaskuld einnig helsta viðfangsefni hugvís- indamanna. Hin nýja prenttækni, tölvusetning, er vafalítið til hægð- arauka fyrir höfunda og útgefend- ur sem hafa nú möguleika á því að setja bækur sínar sjálfir og ráða þannig miklu um útlit þeirra og gerð. Væntanlega verður þess ekki langt að bíða að höfundar geti í öllum atriðum ráðið útliti bóka sinna ef þeir kæra sig um. Þessi tæknibylting hefur og þann kost fyrir mál- og bók- menntafræðinga og aðra þá sem sýsla með texta, að hún opnar þeim möguleika til þess að fá textana til skoðunar og úrvinnslu í tölvu- tækri mynd. Þar með gefst rann- sakendum tækifæri til þess að nota tölvur við textakönnun. Að vísu er ekki alveg ný bóla að menn noti tölvur við úrvinnslu texta, en meginvandinn hefur verið sá að erfitt hefur reynst fyrir rannsak- andann að ná í textana með öðrum hætti en þeim að láta rita þá sér- staklega á tölvu. En tölvusetningin gerir slíkan innslátt óþarfan þar eð texti sem hefur verið tölvusett- ur er einnig aðgengilegur fyrir þá sem þurfa á honum að halda í rannsóknaskyni. Töluvert er rætt um gagnabanka hvers kyns um þessar mundir og hugmyndir eru á lofti um upplýs- ingaveitur. Rétt er að árétta að bækur eru á sinn hátt gagnabank- ar, geyma hina fjölbreytilegustu vitneskju. Nú er það að vísu svo að oft getur reynst erfitt að nálg- ast þær upplýsingar sem menn þurfa á að halda í bókum. Örðugt getur reynst að hafa upp á réttri bók og þótt hún finnist er ekki ætíð hlaupið að því að finna þann stað í bókinni sem tilteknar upp- lýsingar er að finna. Tölvur hafa þann ágæta eigin- leika að vera fljótvirkar og geta haldið utan um mikinn efnivið hverju sinni. Æskilegt væri ef hægt væri að koma vitneskju bók- anna (eða a.m.k. sumra þeirra) í tölvuminni þannig að nýta megi hraða vélanna og afl við að leita upplýsinga í þeim. Þetta er reynd- ar hægt og hefur verið reynt í nokkrum mæli erlendis en í minna mæli hér á landi. Til skamms tíma var það svo að „textabanka" af þessu tagi var eingöngu að finna á stórum tölv- um, og var æði kostnaðarsamt að leita sér upplýsinga í þeim, því hver sekúnda í lífi slíkrar vélar er dýr. En tölvur verða sífellt minni, ódýrari og öflugri og nú er hægt að setja upp slíkan texta- banka á smátölvum, t.d. af PC-gerð. Orðabók Háskólans hefur lítillega fengist við slíkt og er það slíkur hugbúnaður sem liggur að baki þeim upplýsingum sem hér komafram. Sá er helstur vandi við leit í textasöfnum að orð er að finna í mörgum beygingarmyndum. Ef leita á að orði eins og „barn“ í texta þarf að hyggja að öllum beygingarmyndum þess, „börn“, „börnunum" o.s.frv., sem eru ekki ætíð ýkja líkar innbyrðis. Tölvur vinna á þann hátt að framkvæma nákvæmlega það sem fyrir þær er lagt í forriti. Sé tölva beðin að leita að orðinu „barn“ finnur hún ein- göngu dæmi um þessa einu orð- mynd, en sleppir öðrum líkum eins og „barnið" eða „barninu", og vita- skuld einnig myndum eins og „börn“ og „börnum". Auðvelt er reyndar að biðja vélina að leita að orðhluta eins og „barn“ og finnur vélin þá orð á borð við „barn“, „barnið" og einnig „barnæska", „fósturbarn" og önnur slík. En fleira kemur og til álita. Ef orð eins og „barningur" er að finna í textanum þá birtist það einnig á skjánum ef beðið er um orðhlutann barn. „Börn“ og þvíumlíkar orð- myndir birtast hins vegar ekki. Því þyrfti að vera hægt að gefa tölvunni skipun um að leita að orðinu „barn“ og láta hana finna allar myndir þess orðs, í hvaða falli sem er, með og án greinis. Hvernig er slíkt unnt? Forsenda þess er sú að vélin kunni að beygja orðið. Við Orðabók Háskólans er nú unnið að slíkri vélrænni beygingarfræði og er þess væntanlega ekki langt að bíða að leit af þessu tagi verði framkvæmanleg í tölvum. Orðtíðni í íslendingasögum Við Orðabók Háskólans er nú unnið að því að koma upp safni texta í tölvutækri mynd. Einn þeirra texta sem Orðabókinni hef- ur áskotnast er útgáfa íslendinga- sagna sem forlagið Svart á hvítu er að gefa út um þessar mundir. Fyrra bindi útgáfunnar er komið út og hef ég lítillega kannað texta þeirrar bókar, alls 14 íslendinga- sagna, með þeim hugbúnaði sem Orðabókin á til orðtíðnikannana. Verður nú gerð grein fyrir nokkr- um niðurstöðum þeirrar könnunar og sýnt á hvern hátt nýta má orðtíðnikönnun af þessu tagi til orðabókarvinnu og við textarýni. Þegar kanna á tíðni orða í mál- inu má bera sig að með ýmsum hætti. Einfaldast er sennilega að telja fjölda orða sem eru í tiltekn- um textum, svonefndra lesmáls- orða, en lesmálsorð telst sérhvert heilt orð í textanum og skiptir þá engu hvort það kemur fyrir einu sinni eða oftar. Fjöldi orðmynda er hins vegar fenginn með því að telja fjölda ólíkra orðmynda sér- staklega. Ef talinn er fjöldi orð- mynda er sérhver orðmynd aðeins talin einu sinni. Því gildir t.d. eftirfarandi: „í þessari setningu eru ellefu lesmálsorð, en orðmynd- ir eru alls tíu.“ Orðmyndirnar eru aðeins 10 sökum þess að tvö dæmi eru um orðmyndina „eru“ í setn- ingunni. I þeim fjórtán íslendingasögum sem eru í fyrra bindi útgáfu Svart- hvítingja, eru rúmlega 488 þúsund lesmálsorð. Sögurnar eru vita- skuld mislangar. Njála er þeirra lengst, alls 99.805 lesmálsorð, en Eiríks saga rauða er styst, 7.912 lesmálsorð. Orðmyndafjöldi ein- stakra sagna er og mismunandi eins og við er að búast. Á mynd 1 hef ég fært hlutfallið lesmálsorð/ orðmyndir (L/O-hlutfall) og sést þar hve hlutfall þetta hækkar eftir því sem sögurnar lengjast. Þetta hlutfall segir til um hversu oft hver orðmynd er að meðaltali notuð í hverri sögu. Eins og við er að búast hækkar þetta hlutfall eftir því sem bækurnar lengjast. Sömu orðmyndirnar eru þá not- aðar æ og aftur og leiðir það til þess að L/O-hlutfallið hækkar. Á mynd 1 sést nokkuð greinilega að fslendingasögurnar 14 fylgja sem næst beinni línu, að vísu með nokkrum frávikum. En sögur á borð við Njálu, Eglu og Grettlu liggja þétt að línunni. Á mynd 1 eru einnig hafðir tveir nútímatext- ar til samanburðar, í báðum tilvik- um er um að ræða nýútkomnar bækur. Er önnur þeirra endur- minningabók Einars Braga, „Af mönnum ertu kominn", en hin skáldsaga Guðlaugs Arasonar, „Sóla, Sóla“. Sést greinilega á myndinni að þessir tveir textar skera sig nokkuð frá hinum gömlu sögum að því leyti að L/O-hlut- fallið er langtum lægra en í íslend- ingasögum af sambærilegri lengd. Þetta sýnir með öðrum orðum að orðanotkun er fjölbreyttari hjá Einari Braga og Guðlaugi Arasyni en hjá höfundum íslendingasagna. Margvíslegar ástæður liggja vafa- lítið til þessa, flóknari heimur 20. aldarinnar, fjölbreytilegri við- fangsefni bókanna ogólík stílhefð. Peter Hallberg og íslendingasögurnar Orðtíðnirannsóknir íslendinga- sagna eru ekki alveg nýjar af nál- inni. Fræðimenn hafa haft marg- vísleg markmið með rannsóknum sínum. Að hluta til hefur vakað fyrir mönnum að fá yfirlit um orðaforða eldri málstiga (t.d. í bók Ludvigs Larssons Ordforrádet i de áldste islándske handskrifterne frá 1891) ellegar að fá tæmandi yfirlit um orðaforða einstakra verka (t.d. Jónsbókar, sbr. Hans Fix, Wortschatz der Jónsbók, 1984). Nokkra sérstöðu hafa rannsókn- ir Peters Hallbergs sem eru mörg- um íslendingum að góðu kunnar, en Hallberg freistaði þess í ræki- legum rannsóknum að leiða rök að því að Snorri Sturluson væri höfundur Eglu. í þessu skyni bar Hallberg saman orðaforða Heims- kringlu annars vegar og nokkurra fslendingasagna hins vegar, auk Eglu voru það Njála, Eyrbyggja, Grettla og Laxdæla. Rannsóknir hans birtust árið 1962 í ritröðinni Studia Islandica — íslenzk fræði, nr. 20 og víða síðar. Hallberg beindi sjónum sínum einkum að þeim orðum sem komu fyrir í Heimskringlu einni og aðeins einu af hinum ritunum, ellegar þá ein- göngu í tveimur fslendingasagn- anna. Nefndi hann slík orð parorð. Niðurstöður hans voru í sem skemmstu máli þær að fjöldi par- orða í Heimskringlu og Eglu væri svipaöur og innan Heimskringlu einnar og langtum hærri en í Heimskringlu og hinum fslend- ingasögunum. Orðaforði Heims- kringlu og Eglu virðist því skyldari en gengur og gerist meðal ís- lenskra fornrita og því ályktaði Hallberg sem svo að þetta benti sterklega til þess að Snorri væri höfundur Eglu. Ekki skal lagður neinn dómur á þessar staðhæfingar hér, en hinu er ekki að neita að rannsókn Hall- bergs sýnir einkar hugvitsamlega notkun orðtíðnirannsókna við að ættfæra rit. Að vísu er það svo, og hafa ýmsir fundið að því, að Hallberg skorti samanburðar- kannanir á ritum sem vissulega eru eftir sama höfund. Hefði verið fróðlegt að bera saman rit eftir þekkta höfunda og kanna hvernig háttað er orðalagi í mörgum verk- um sama höfundar annars vegar og í samanburði við aðra höfunda hins vegar. Þá hefði fengist ein- Mynd I Á þessari mynd er sýnt samband L/O hlutfalls og lengdar bóka. Skammstafanir: N, Njála; G, Grettis saga; E, Egla; M, Af mönnum ertu kominn; S, Sóla, Sóla. 1 makindum 1 maklegir 2 maklegt 1 malargrjót 2 mal t 1 malti 2 man 1 mani 34 mann [129 manna 1 mannabein 1 mannadeili 1 mannaður 1 mannafar 2 mannaforráð 1 mannalát 2 mannamál 1 mannamun 1 mannbaetur 1 manndómsmenn 1 mannfagnaður 7 mannfall 1 mannfal1i 1 mannfjöld 1 mannfólki 1 mannfaerðin 1 mannför 1 manngarð 1 manngjöldum 1 mannhring |24 manni 1 manninn 1 mannraunum |12 manns 1 mannsefni 2 mannskaða 1 mannskaði 1 mannsóma 2 mannspel1 2 mannval 1 mannvirðingar 1 mannven 1 mannvxnlegasti 1 manrúnar 1 mansmenn 1 manst 1 manstu 1 mansöng 1 mansöngskvxði 4 mar [22 marga 1 margan |12 margar 1 margfrömuðr Tafla 1 Hluti af orðaskrá Egils sögu. Tölurn- ar greina frá því hve oft hverja orð- mynd er að finna í sögunni. hver mælistika á það hvað tölur Hallbergs þýða í raun. Varla getur nokkur láð Hallberg að hafa ekki lagt út í slíkan samanburð, svo tímafrek er þessi vinna án vél- rænnar aðstoðar. En nú ætti að vera hægur vandi að afla þeirra gagna og væri þá e.t.v. ástæða til að skoða niðurstöður Hallbergs að nýju. Gildi orðtíðnikannana fyrir Orðabókarstarf Á töflu 1 sést hluti af orðaskrá Egils sögu. Slík orðaskrá hefur að geyma allar orðmyndir tiltekins texta sem og hversu oft hverja þeirra er að finna í textanum. Á töflunni sést t.d. að 7 dæmi eru um orðmyndina „mannfall", 2 um „mannval" o.s.frv. Skrá af þessu tagi veitir tæmandi upplýsingar um allar þær orðmyndir sem er að finna í ákveðnum textum. En fleira má hugsa sér. T.d. er ekki flókið verk að raða slíkum orða- lista „aftan frá“, og fæst þá svo- kallaður bakstöðulisti. í slíkum lista er orðmyndum raðað á þann veg að allar orðmyndir sem hafa sömu endingar raðast saman. Tafla 2 sýnir hluta af slíkum lista. Þar er að finna orð í íslendinga- sögunum 14 sem enda á „maður" eða öðrum beygingarmyndum þess orðs. Aðeins er sýndur hluti listans en alls voru 475 orðmyndir á hon- um. Hráir listar orðmynda sýna vitaskuld ekki á hvern hátt orðin eru notuð í textunum. En hægt er að búa til svonefnda orðstöðulykla sem sýna hverja orðmynd í textan- um svo og það samhengi sem hún stendur í. Að sínu leytinu samsvar- ar skrá af þessu tagi vel seðlasafni Orðabókar Háskólans. í því safni eru geymd notkunardæmi um ís- lensk orð frá 16. öld til þeirrar 20. Á hverjum seðli er birt sýni úr riti. Hér kemur því fram það samhengi sem orðið stendur í og af því má væntanlega ráða um
Blaðsíða 1
Blaðsíða 2
Blaðsíða 3
Blaðsíða 4
Blaðsíða 5
Blaðsíða 6
Blaðsíða 7
Blaðsíða 8
Blaðsíða 9
Blaðsíða 10
Blaðsíða 11
Blaðsíða 12
Blaðsíða 13
Blaðsíða 14
Blaðsíða 15
Blaðsíða 16
Blaðsíða 17
Blaðsíða 18
Blaðsíða 19
Blaðsíða 20
Blaðsíða 21
Blaðsíða 22
Blaðsíða 23
Blaðsíða 24
Blaðsíða 25
Blaðsíða 26
Blaðsíða 27
Blaðsíða 28
Blaðsíða 29
Blaðsíða 30
Blaðsíða 31
Blaðsíða 32
Blaðsíða 33
Blaðsíða 34
Blaðsíða 35
Blaðsíða 36
Blaðsíða 37
Blaðsíða 38
Blaðsíða 39
Blaðsíða 40
Blaðsíða 41
Blaðsíða 42
Blaðsíða 43
Blaðsíða 44
Blaðsíða 45
Blaðsíða 46
Blaðsíða 47
Blaðsíða 48
Blaðsíða 49
Blaðsíða 50
Blaðsíða 51
Blaðsíða 52
Blaðsíða 53
Blaðsíða 54
Blaðsíða 55
Blaðsíða 56
Blaðsíða 57
Blaðsíða 58
Blaðsíða 59
Blaðsíða 60
Blaðsíða 61
Blaðsíða 62
Blaðsíða 63
Blaðsíða 64
Blaðsíða 65
Blaðsíða 66
Blaðsíða 67
Blaðsíða 68
Blaðsíða 69
Blaðsíða 70
Blaðsíða 71
Blaðsíða 72
Blaðsíða 73
Blaðsíða 74
Blaðsíða 75
Blaðsíða 76
Blaðsíða 77
Blaðsíða 78
Blaðsíða 79
Blaðsíða 80

x

Morgunblaðið

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Morgunblaðið
https://timarit.is/publication/58

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.