Orð og tunga - 01.06.2005, Síða 15
Aðalsteinn Eyþórsson: Hver erkjarni orðaforðans?
13
orðaforða tungumáls en eldri aðferðir, og leiða þannig til að orðabæk-
ur verði betri og gagnlegri en ella.
Síðastnefnda atriðið, möguleikinn til að mæla tíðni einstakra orða
í stórum textasöfnum, hefur einkum þótt álitlegt í orðabókagerð. Þar
er komin til sögunnar „vísindaleg" aðferð til að meta hversu mið-
lægt tiltekið orð er í orðaforða tungumáls, m.ö.o. aðferð til að afmarka
kjarna orðaforðans. Leitin að slíkum kjama í ýmsum tungumálum
hófst reyndar löngu fyrir daga véltækra textasafna. Nefna má Basic
English C.K. Ogdens (1930) - sem er raunar ekki nema 850 orð - og
fleiri nafntogaða orðalista, stóra og smáa.1 Þessi leit að kjarnanum
hefur þó ekki síður verið í þágu tungumálakennslu en orðabókagerð-
ar, reynt er að afmarka gagnlegasta hluta orðaforðans sem gerir nem-
anda kleift að tjá sig á nýju máli við algengar aðstæður. Areiðanlegri
og aðgengilegri tíðnimælingar hafa reynst kærkomin viðbót við aðrar
mælistikur sem beitt hefur verið í þessu skyni.2
Tíðnitölur úr rafrænum söfnum hafa gert mögulegt að útvíkka leit-
ina að kjarna orðaforðans þannig að hún nýttist betur í samhengi orða-
bóka, þar sem oftast er þörf á miklu stærri kjarna en einungis þeim
orðaforða sem hentugast er að kenna byrjendum í tungumálanámi.
Rafræn textasöfn komu líklega fyrst við sögu íslenskrar orðabóka-
gerðar þegar ráðist var í samningu og útgáfu íslenskrar orðtíðnibók-
ar (1991); hún er unnin úr rafrænu textasafni - reyndar nokkuð litlu
á nútímamælikvarða - og hefur þegar komið orðabókahöfundum að
notum.
Vélræn orðasmölun hefur m.ö.o. verið talin mikilvægt framfara-
skref fyrir orðabókagerð, skref sem leiðir til vísindalegri vinnubragða
og traustari niðurstaðna. Eftir því sem fleiri og margbreytilegri vél-
tækir textar urðu aðgengilegir fóru menn að setja saman kenningar
um vísindalega samsetningu textasafna, með það fyrir augum að gera
þau að áreiðanlegri heimild um tungumál „eins og þau eru í raun og
'Nærtækt og nýlegt dæmi er doktorsritgerð Hanne Ruus (1995) þar sem hún setur
fram lista 1117 „kjamaorða" í dönsku á grundvelli tíðnimælinga.
2 Annað atriði sem þar kemur við sögu er hversu „fjölhæf" orð eru, þ.e. hvort notk-
un þeirra er bundin við sérstakt samhengi, s.s. umræðuefni, málsnið, félagslegar að-
stæður, stað, tlma o.s.frv. Orð sem notað er í fjölbreytilegu samhengi og á fjölbreyttan
hátt er miðlægara, nær kjama orðaforðans, en hitt sem er bundið tilteknum aðstæð-
um eða merkingarsviði. Þessi eiginleiki ætti raunar að endurspeglast í seðlafjölda í
gamaldags seðlasafni ekki síður en í tíðni í textasafni, þ.e. ef það er rétt til getið að
fjölbreytt notkun leiði til fleiri seðla.