Orð og tunga - 01.06.1988, Blaðsíða 31
Friðrik Magnússon: Hvað er títt?
19
ekki fyrir nema 3.638 sinnum alls, en það svarar aðeins til 6,68% lesmálsorðanna.
Þetta þýðir að hvert lýsingarorð kemur að meðaltali 3,08 sinnum fyrir. Allt aðra
sögu er að segja af samtengingum. Þær eru ekki nema 33, eða aðeins 0,47%
orðanna, en þær koma hins vegar alls 6.631 sinni fyrir og eru 12,17% lesmálsorð-
anna. Meðaltíðni samtenginga er því 200,94. Þama kemur mismunandi notkun
orðflokkanna glöggt fram; sumir orðflokkar eru orðmargir en hvert orð kemur
frekar sjaldan fyrir, aðrir eru orðfáir en hvert orð er þeim mun oftar notað.
Þá er komið að því að svara spurningunni: Hver eru algengustu orðin? Svar
við henni er að finna í töflu 9. Þar eru sýnd 70 algengustu orðin ásamt tíðni
þeirra og tíðniröð, svo og í hversu mörgum textum hvert orð kemur fyrir. Einnig
er getið um orðflokkinn. Orð með sömu tíðni fá sama tíðniraðarnúmer. Til
dæmis hafa fornafnið enginn og sögnin fá sömu tíðni (117) og fá því sama tíðni-
raðarnúmerið, þ.e. 53, þannig að þau eru í rauninni númer 53-54 í röðinni.
Af 70 algengustu orðunum eru atviksorð flest eða 22, 15 fornöfn, 14 sagnir,
9 nafnorð (það algengasta þó ekki nema í 28. sæti), 7 samtengingar (þar af 3
meðal 8 algengustu), aðeins 2 lýsingarorð (það algengasta ekki nema í 43. sæti)
og 1 töluorð.
I könnun sem þessari, þar sem lesmálsorðin eru ekki ýkja mörg og textarnir
fáir, er alltaf hætta á að orð sem mikið eru notuð í einum eða mjög fáum textum
hafi óeðlilega háa tíðni. Ef litið er á töflu 9 sést að af 70 algengustu orðunum
koma 54 fyrir í öllum textunum 11, þar af öll 27 algengustu orðin. Þetta bendir til
þess að taflan sýni nokkuð eðlilega mynd af algengustu orðtmum í íslensku ritmáli
og að þau orð sem koma fyrir í öllum textunum 11 (og jafnvel þau sem koma
fyrir í öllum nema einum) eigi öll heima á lista yfir 70 algengustu orðin. Hins
vegar má vera að lesmálsorðafjöldinn sem hggur að baki þessum niðurstöðum sé
ekki nægilega mikill til að segja nákvæmlega til um tíðniröð orðanna, nema e.t.v.
þeirra algengustu. Um þetta er þó ekki gott að segja þar sem engar kannanir
hafa áður verið gerðar á tíðni orða í íslensku ritmáli svo mér sé kunnugt, aðeins
á tíðni orðmynda.
I töflu 9 hafa hins vegar komist fáein orð sem eru mjög algeng í fáum textum
og hafa því óeðhlega háa tíðni. Þetta eru t.d. nafnorðin barn sem kemur fyrir í
7 textum, hraun í 2 textum og lög í fimm textum, og fornafn annarrar persónu
þú sem kemur fyrir í 6 textum. Ólíklegt er að þessi orð séu eins algeng í íslensku
ritmáli og ætla mætti af töflu 9. Um algengustu orð hvers orðflokks verður fjallað
nánar í köflum 6.2 til 6.9.
I töflu 10 er að finna ýmsar upplýsingar um tíðnidreifingu orða. I fyrsta
dálki er tíðni orðanna, í öðrum dálki fjöldi þeirra orða sem hafa þá tíðni og í
þriðja dálki kemur fram hversu stór hluti þessi fjöldi er af heildarorðafjöldanum,
7.083 orðum. I fjórða dálki er síðan lagður saman fjöldi orðanna úr öðrum dálki
til að sýna hversu mörg orð hafa þá tíðni sem sýnd er í fyrsta dálki eða hærri
tíðni, og í fimmta dálki kemur fram hversu stór hluti þessi samanlagði fjöldi er
af heildarfjölda orða. Til dæmis má nefna að tíðnina 2.525 hefur aðeins eitt orð
(sögnin vera sbr. töflu 9) og þetta eina orð er 0,01% af heildarfjölda orða. Annað
dæmi: Tíðnina 765 hefur einnig aðeins eitt orð (sögnin hafa sbr. töflu 9) sem er
einnig 0,01% heildarorðafjöldans en þau orð sem hafa tíðni >765 eru 10 alls og
eru þau 0,14% heildarorðafjöldans. Þriðja dæmi: Tíðnina 8 hafa 84 orð og eru