Orð og tunga - 01.06.1988, Síða 34
22
Orð og tunga
þau 1,19% heildarorðafjöldans en þau orð sem hafa tíðni >8 eru 768 alls sem
er 10,84% heildarfjölda orða. I síðari hluta töflunnar er svo sýnt hversu mörg
lesmálsorð eru að baki þeim orðafjölda sem sýndur er í öðrum og fjórða dálki,
þ.e. hversu stór hluti lesmálsins orðin eru. I sjötta dálki kemur fram hversu mörg
lesmálsorð hggja að baki þeim orðum sem hafa þá tíðni sem sýnd er í fyrsta dálki
(þ.e. Tíðni x Fjöldi) og í sjöunda dálki er sýnt hversu stór hluti lesmálsins þessi
fjöldi er. I áttunda dálki kemur síðan fram samanlagður lesmálsorðafjöldi þeirra
orða sem hafa þá tíðni sem sýnd er í fyrsta dálki, eða hærri tíðni, og í níunda
dálki er að lokum sýnt hversu stór hluti alls lesmálsins sá lesmálsorðafjöldi er.
Til dæmis eru þau 198 orð sem hafa tíðnina 5 alls 990 lesmálsorð eða 1,82%
lesmálsins og þau orð sem hafa tíðni >5 eru 45.596 alls eða 83,69% lesmálsins.
Annað dæmi: Þau orð sem hafa tíðnina 10 eru 46 þannig að lesmálsorðafjöldi
þeirra er 460 sem er 0,84% lesmálsins. Þau orð sem hafa tíðni >10 eru alls 41.716
eða 76,57% lesmálsins. Rétt er að benda á að tafla 10 er ekki samfelld heldur
voru valdar tólf hæstu og tólf lægstu tíðnitölurnar og ellefu tíðnitölur þar á milli.
Ymislegt fróðlegt má lesa út úr töflu 10 um tíðnidreifingu orða, t.d. það að
tiltölulega fá, algeng orð mynda megnið af lesmálinu. Algengasta orðið kemur
svo oft fyrir að það telst 4,63% alls lesmálsins, aðeins þetta eina orð, sögnin
vera. Þrjú algengustu orðin sem eru ekki nema 0,04% heildarfjölda orða koma
alls 6.595 sinnum fyrir og eru 12,10% lesmálsins. Tíu algengustu orðin eru rúm-
lega fjórðungur lesmálsins og 64 algengustu orðin helmingur lesmálsins. Aðeins
7,51% orðanna, eða 532 algengustu orðin, eru um þrír fjórðu alls lesmálsins.
Afgangurinn, fjórðungur lesmálsins, samanstendur af 6.551 orði með tíðni <11.
Af þessu má ljóst vera að tiltölulega fá, algeng orð mynda mestan hluta alls
lesmálsins. Flest orðin eru hins vegar sjaldgæf og eru því aðeins lítill hluti les-
málsins. Þannig koma aðeins rúm 10% orðanna fyrir 8 sinnum eða oftar og þar
af kemur rúmur helmingur, eða 56,40%, aðeins fyrir einu sinni, en það nemur
7,33% lesmálsins. Sem dæmi um mismunandi tíðni orða má að lokum taka að
fimmta algengasta orðið, atviksorðið á, er nánast jafnstór hluti alls lesmálsins
og öll þau 310 orð sem koma fyrir 4 sinnum hvert, eða 2,28% lesmálsins.
En hverjar eru þá algengustu orðmyndirnar? Svar við þeirri spurningu er að
finna í töflu 11. Þar eru sýndar 70 algengustu orðmyndirnar auk þess sem fram
kemur tíðni þeirra og tíðniröð svo og í liversu mörgum textum hver orðmynd
kemur fyrir. Orðmyndir með sömu tíðni fá sama tíðniraðarnúmer. I töflu 11 sést
að 54 af 70 algengustu orðmyndunum koma fyrir í öllum textunum 11 (eins og
54 af 70 algengustu orðunum, sbr. töflu 9), þar af allar algengustu orðmyndirnar
41 að einni undanskilinni.
I töflunni eru aðeins fáeinar orðmyndir sem virðast vera óeðlilega ofarlega
í tíðniröðinni miðað við þann fjölda texta sem þær koma fyrir í. Þetta eru
orðmyndirnar þú sem kemur aðeins fyrir í 4 textum og er 54. í tíðniröðinni, sagði
sem kemur fyrir í 5 textum og er 56. í röðinni, grein í 6 textum og er 57. í röðinni
og jafnvel líka orðmyndirnar okkur sem kemur fyrir í 8 textum og er 62. í röðinni
og einnig sem er að finna í 7 textum og er 63. í röðinni. Með samanburði við
niðurstöður úr könnun þeirra Eiríks Rögnvaldssonar og Vilhjálms Sigurjónssonar
(1986) kemur í ljós að þessi orð eru þar töluvert neðar í tíðniröðinni. Minnstu
munar þó um orðmyndina þú, en hún er í 60. sæti hjá þeim Eiríki og Vilhjálmi