Morgunblaðið - 13.12.1985, Blaðsíða 30
30
MORGUNBLAÐIÐ, FÖSTUDAGUR13. DESEMBER1985
Jólagjöf Egils
— orðaleit í íslendingasögum
— eftir Jörgen Pind
„Þjófsaugu" eru aðeins nefnd á
einum stað í Njálu og reyndar
hvergi annars staðar í þeim 14
fslendingasögum sem eru nú
komnar á prent í útgáfu Svarts á
hvítu. Hins vegar er getið um tvær
persónur sem fengu gjafir sem
voru sérstaklega nefndar „jóla-
gjafir". Arinbjörn hersir gaf Agli
Skalla-Grímssyni „slæður gervar
af silki og gullsaumaðar mjög“.
Síðan er þess getið í Fóstbræðra-
sögu að ólafur konungur hafi gefið
Sighvati skáldi gullinhjalta í jóla-
gjöf. Þetta þykir e.t.v. ekki merki-
leg speki, en hitt verður að teljast
merkilegt að ný tækni gerir mál-
og bókmenntafræðingum, sem og
öðrum ritskýrendum, kleift að
leita að hvaða orði sem er í öllum
íslendingasögunum á örfáum
mínútum. í þessari grein verður
sagt lítillega frá þeim möguleikum
sem tölvutæknin opnar ritrýnend-
um, svo og frá þýðingu orðtíðni-
kannana fyrir orðabókavinnu, og
þá einkum þeim rannsóknum sem
fram fara á Orðabók Háskólans.
Tæknibyltingar
og hugvísindi
Þess eru ótal dæmi að margvís-
legar tæknibyltingar hafi áhrif á
ástundun vísindagreina. Hvers
kyns mælitæki hafa haft áhrif á
þróun eðlis- og efnafræði svo dæmi
sé tekið. Flestar tækninýjungar
hafa samt látið hugvísindin
ósnortin — þó ekki alveg allar.
Prenttæknin hafði t.d. á sínum
tíma ómæld áhrif á hugvísindi.
Athyglisvert er að nú, þegar prent-
tæknin verður fyrir meiri áhrifum
af framþróun tækninnar en flestar
iðngreinar aðrar, eru hugvísindi
enn í þeim sporum að tengjast
tæknibyltingu.
Hér er vitaskuld átt við tölvu-
byltinguna margumræddu. Hún
hefur gjörbreytt prenttækninni og
mun vafalítið einnig hafa djúp
áhrif á ástundun hugvísinda. Þetta
er sökum þess að tölvur hafa þá
sérstöðu meðal véla að geta unnið
með og úr textum, sem er vitaskuld
einnig helsta viðfangsefni hugvís-
indamanna. Hin nýja prenttækni,
tölvusetning, er vafalítið til hægð-
arauka fyrir höfunda og útgefend-
ur sem hafa nú möguleika á því
að setja bækur sínar sjálfir og ráða
þannig miklu um útlit þeirra og
gerð. Væntanlega verður þess ekki
langt að bíða að höfundar geti í
öllum atriðum ráðið útliti bóka
sinna ef þeir kæra sig um.
Þessi tæknibylting hefur og
þann kost fyrir mál- og bók-
menntafræðinga og aðra þá sem
sýsla með texta, að hún opnar þeim
möguleika til þess að fá textana
til skoðunar og úrvinnslu í tölvu-
tækri mynd. Þar með gefst rann-
sakendum tækifæri til þess að
nota tölvur við textakönnun. Að
vísu er ekki alveg ný bóla að menn
noti tölvur við úrvinnslu texta, en
meginvandinn hefur verið sá að
erfitt hefur reynst fyrir rannsak-
andann að ná í textana með öðrum
hætti en þeim að láta rita þá sér-
staklega á tölvu. En tölvusetningin
gerir slíkan innslátt óþarfan þar
eð texti sem hefur verið tölvusett-
ur er einnig aðgengilegur fyrir þá
sem þurfa á honum að halda í
rannsóknaskyni.
Töluvert er rætt um gagnabanka
hvers kyns um þessar mundir og
hugmyndir eru á lofti um upplýs-
ingaveitur. Rétt er að árétta að
bækur eru á sinn hátt gagnabank-
ar, geyma hina fjölbreytilegustu
vitneskju. Nú er það að vísu svo
að oft getur reynst erfitt að nálg-
ast þær upplýsingar sem menn
þurfa á að halda í bókum. Örðugt
getur reynst að hafa upp á réttri
bók og þótt hún finnist er ekki
ætíð hlaupið að því að finna þann
stað í bókinni sem tilteknar upp-
lýsingar er að finna.
Tölvur hafa þann ágæta eigin-
leika að vera fljótvirkar og geta
haldið utan um mikinn efnivið
hverju sinni. Æskilegt væri ef
hægt væri að koma vitneskju bók-
anna (eða a.m.k. sumra þeirra) í
tölvuminni þannig að nýta megi
hraða vélanna og afl við að leita
upplýsinga í þeim. Þetta er reynd-
ar hægt og hefur verið reynt í
nokkrum mæli erlendis en í minna
mæli hér á landi.
Til skamms tíma var það svo að
„textabanka" af þessu tagi var
eingöngu að finna á stórum tölv-
um, og var æði kostnaðarsamt að
leita sér upplýsinga í þeim, því
hver sekúnda í lífi slíkrar vélar
er dýr. En tölvur verða sífellt
minni, ódýrari og öflugri og nú er
hægt að setja upp slíkan texta-
banka á smátölvum, t.d. af
PC-gerð. Orðabók Háskólans hefur
lítillega fengist við slíkt og er það
slíkur hugbúnaður sem liggur að
baki þeim upplýsingum sem hér
komafram.
Sá er helstur vandi við leit í
textasöfnum að orð er að finna í
mörgum beygingarmyndum. Ef
leita á að orði eins og „barn“ í
texta þarf að hyggja að öllum
beygingarmyndum þess, „börn“,
„börnunum" o.s.frv., sem eru ekki
ætíð ýkja líkar innbyrðis. Tölvur
vinna á þann hátt að framkvæma
nákvæmlega það sem fyrir þær er
lagt í forriti. Sé tölva beðin að leita
að orðinu „barn“ finnur hún ein-
göngu dæmi um þessa einu orð-
mynd, en sleppir öðrum líkum eins
og „barnið" eða „barninu", og vita-
skuld einnig myndum eins og
„börn“ og „börnum". Auðvelt er
reyndar að biðja vélina að leita
að orðhluta eins og „barn“ og finnur
vélin þá orð á borð við „barn“,
„barnið" og einnig „barnæska",
„fósturbarn" og önnur slík. En
fleira kemur og til álita. Ef orð
eins og „barningur" er að finna í
textanum þá birtist það einnig á
skjánum ef beðið er um orðhlutann
barn. „Börn“ og þvíumlíkar orð-
myndir birtast hins vegar ekki.
Því þyrfti að vera hægt að gefa
tölvunni skipun um að leita að
orðinu „barn“ og láta hana finna
allar myndir þess orðs, í hvaða falli
sem er, með og án greinis. Hvernig
er slíkt unnt? Forsenda þess er sú
að vélin kunni að beygja orðið. Við
Orðabók Háskólans er nú unnið
að slíkri vélrænni beygingarfræði
og er þess væntanlega ekki langt
að bíða að leit af þessu tagi verði
framkvæmanleg í tölvum.
Orðtíðni í
íslendingasögum
Við Orðabók Háskólans er nú
unnið að því að koma upp safni
texta í tölvutækri mynd. Einn
þeirra texta sem Orðabókinni hef-
ur áskotnast er útgáfa íslendinga-
sagna sem forlagið Svart á hvítu
er að gefa út um þessar mundir.
Fyrra bindi útgáfunnar er komið
út og hef ég lítillega kannað texta
þeirrar bókar, alls 14 íslendinga-
sagna, með þeim hugbúnaði sem
Orðabókin á til orðtíðnikannana.
Verður nú gerð grein fyrir nokkr-
um niðurstöðum þeirrar könnunar
og sýnt á hvern hátt nýta má
orðtíðnikönnun af þessu tagi til
orðabókarvinnu og við textarýni.
Þegar kanna á tíðni orða í mál-
inu má bera sig að með ýmsum
hætti. Einfaldast er sennilega að
telja fjölda orða sem eru í tiltekn-
um textum, svonefndra lesmáls-
orða, en lesmálsorð telst sérhvert
heilt orð í textanum og skiptir þá
engu hvort það kemur fyrir einu
sinni eða oftar. Fjöldi orðmynda
er hins vegar fenginn með því að
telja fjölda ólíkra orðmynda sér-
staklega. Ef talinn er fjöldi orð-
mynda er sérhver orðmynd aðeins
talin einu sinni. Því gildir t.d.
eftirfarandi: „í þessari setningu
eru ellefu lesmálsorð, en orðmynd-
ir eru alls tíu.“ Orðmyndirnar eru
aðeins 10 sökum þess að tvö dæmi
eru um orðmyndina „eru“ í setn-
ingunni.
I þeim fjórtán íslendingasögum
sem eru í fyrra bindi útgáfu Svart-
hvítingja, eru rúmlega 488 þúsund
lesmálsorð. Sögurnar eru vita-
skuld mislangar. Njála er þeirra
lengst, alls 99.805 lesmálsorð, en
Eiríks saga rauða er styst, 7.912
lesmálsorð. Orðmyndafjöldi ein-
stakra sagna er og mismunandi
eins og við er að búast. Á mynd 1
hef ég fært hlutfallið lesmálsorð/
orðmyndir (L/O-hlutfall) og sést
þar hve hlutfall þetta hækkar eftir
því sem sögurnar lengjast. Þetta
hlutfall segir til um hversu oft
hver orðmynd er að meðaltali
notuð í hverri sögu. Eins og við
er að búast hækkar þetta hlutfall
eftir því sem bækurnar lengjast.
Sömu orðmyndirnar eru þá not-
aðar æ og aftur og leiðir það til
þess að L/O-hlutfallið hækkar. Á
mynd 1 sést nokkuð greinilega að
fslendingasögurnar 14 fylgja sem
næst beinni línu, að vísu með
nokkrum frávikum. En sögur á
borð við Njálu, Eglu og Grettlu
liggja þétt að línunni. Á mynd 1
eru einnig hafðir tveir nútímatext-
ar til samanburðar, í báðum tilvik-
um er um að ræða nýútkomnar
bækur. Er önnur þeirra endur-
minningabók Einars Braga, „Af
mönnum ertu kominn", en hin
skáldsaga Guðlaugs Arasonar,
„Sóla, Sóla“. Sést greinilega á
myndinni að þessir tveir textar
skera sig nokkuð frá hinum gömlu
sögum að því leyti að L/O-hlut-
fallið er langtum lægra en í íslend-
ingasögum af sambærilegri lengd.
Þetta sýnir með öðrum orðum að
orðanotkun er fjölbreyttari hjá
Einari Braga og Guðlaugi Arasyni
en hjá höfundum íslendingasagna.
Margvíslegar ástæður liggja vafa-
lítið til þessa, flóknari heimur 20.
aldarinnar, fjölbreytilegri við-
fangsefni bókanna ogólík stílhefð.
Peter Hallberg og
íslendingasögurnar
Orðtíðnirannsóknir íslendinga-
sagna eru ekki alveg nýjar af nál-
inni. Fræðimenn hafa haft marg-
vísleg markmið með rannsóknum
sínum. Að hluta til hefur vakað
fyrir mönnum að fá yfirlit um
orðaforða eldri málstiga (t.d. í bók
Ludvigs Larssons Ordforrádet i de
áldste islándske handskrifterne
frá 1891) ellegar að fá tæmandi
yfirlit um orðaforða einstakra
verka (t.d. Jónsbókar, sbr. Hans
Fix, Wortschatz der Jónsbók, 1984).
Nokkra sérstöðu hafa rannsókn-
ir Peters Hallbergs sem eru mörg-
um íslendingum að góðu kunnar,
en Hallberg freistaði þess í ræki-
legum rannsóknum að leiða rök
að því að Snorri Sturluson væri
höfundur Eglu. í þessu skyni bar
Hallberg saman orðaforða Heims-
kringlu annars vegar og nokkurra
fslendingasagna hins vegar, auk
Eglu voru það Njála, Eyrbyggja,
Grettla og Laxdæla. Rannsóknir
hans birtust árið 1962 í ritröðinni
Studia Islandica — íslenzk fræði,
nr. 20 og víða síðar. Hallberg
beindi sjónum sínum einkum að
þeim orðum sem komu fyrir í
Heimskringlu einni og aðeins einu
af hinum ritunum, ellegar þá ein-
göngu í tveimur fslendingasagn-
anna. Nefndi hann slík orð parorð.
Niðurstöður hans voru í sem
skemmstu máli þær að fjöldi par-
orða í Heimskringlu og Eglu væri
svipaöur og innan Heimskringlu
einnar og langtum hærri en í
Heimskringlu og hinum fslend-
ingasögunum. Orðaforði Heims-
kringlu og Eglu virðist því skyldari
en gengur og gerist meðal ís-
lenskra fornrita og því ályktaði
Hallberg sem svo að þetta benti
sterklega til þess að Snorri væri
höfundur Eglu.
Ekki skal lagður neinn dómur á
þessar staðhæfingar hér, en hinu
er ekki að neita að rannsókn Hall-
bergs sýnir einkar hugvitsamlega
notkun orðtíðnirannsókna við að
ættfæra rit. Að vísu er það svo,
og hafa ýmsir fundið að því, að
Hallberg skorti samanburðar-
kannanir á ritum sem vissulega
eru eftir sama höfund. Hefði verið
fróðlegt að bera saman rit eftir
þekkta höfunda og kanna hvernig
háttað er orðalagi í mörgum verk-
um sama höfundar annars vegar
og í samanburði við aðra höfunda
hins vegar. Þá hefði fengist ein-
Mynd I
Á þessari mynd er sýnt samband L/O hlutfalls og lengdar bóka. Skammstafanir: N, Njála; G, Grettis saga; E,
Egla; M, Af mönnum ertu kominn; S, Sóla, Sóla.
1 makindum
1 maklegir
2 maklegt
1 malargrjót
2 mal t
1 malti
2 man
1 mani
34 mann
[129 manna
1 mannabein
1 mannadeili
1 mannaður
1 mannafar
2 mannaforráð
1 mannalát
2 mannamál
1 mannamun
1 mannbaetur
1 manndómsmenn
1 mannfagnaður
7 mannfall
1 mannfal1i
1 mannfjöld
1 mannfólki
1 mannfaerðin
1 mannför
1 manngarð
1 manngjöldum
1 mannhring
|24 manni
1 manninn
1 mannraunum
|12 manns
1 mannsefni
2 mannskaða
1 mannskaði
1 mannsóma
2 mannspel1
2 mannval
1 mannvirðingar
1 mannven
1 mannvxnlegasti
1 manrúnar
1 mansmenn
1 manst
1 manstu
1 mansöng
1 mansöngskvxði
4 mar
[22 marga
1 margan
|12 margar
1 margfrömuðr
Tafla 1
Hluti af orðaskrá Egils sögu. Tölurn-
ar greina frá því hve oft hverja orð-
mynd er að finna í sögunni.
hver mælistika á það hvað tölur
Hallbergs þýða í raun. Varla getur
nokkur láð Hallberg að hafa ekki
lagt út í slíkan samanburð, svo
tímafrek er þessi vinna án vél-
rænnar aðstoðar. En nú ætti að
vera hægur vandi að afla þeirra
gagna og væri þá e.t.v. ástæða til
að skoða niðurstöður Hallbergs að
nýju.
Gildi orðtíðnikannana
fyrir Orðabókarstarf
Á töflu 1 sést hluti af orðaskrá
Egils sögu. Slík orðaskrá hefur að
geyma allar orðmyndir tiltekins
texta sem og hversu oft hverja
þeirra er að finna í textanum.
Á töflunni sést t.d. að 7 dæmi eru
um orðmyndina „mannfall", 2 um
„mannval" o.s.frv. Skrá af þessu
tagi veitir tæmandi upplýsingar
um allar þær orðmyndir sem er
að finna í ákveðnum textum. En
fleira má hugsa sér. T.d. er ekki
flókið verk að raða slíkum orða-
lista „aftan frá“, og fæst þá svo-
kallaður bakstöðulisti. í slíkum
lista er orðmyndum raðað á þann
veg að allar orðmyndir sem hafa
sömu endingar raðast saman.
Tafla 2 sýnir hluta af slíkum lista.
Þar er að finna orð í íslendinga-
sögunum 14 sem enda á „maður"
eða öðrum beygingarmyndum þess
orðs. Aðeins er sýndur hluti listans
en alls voru 475 orðmyndir á hon-
um.
Hráir listar orðmynda sýna
vitaskuld ekki á hvern hátt orðin
eru notuð í textunum. En hægt er
að búa til svonefnda orðstöðulykla
sem sýna hverja orðmynd í textan-
um svo og það samhengi sem hún
stendur í. Að sínu leytinu samsvar-
ar skrá af þessu tagi vel seðlasafni
Orðabókar Háskólans. í því safni
eru geymd notkunardæmi um ís-
lensk orð frá 16. öld til þeirrar 20.
Á hverjum seðli er birt sýni úr
riti. Hér kemur því fram það
samhengi sem orðið stendur í og
af því má væntanlega ráða um