Orð og tunga - 01.06.2013, Page 45
Kristín Bjarnadóttir: Hvert á að sækja orðaforðann í orðabók? 35
umræðu, þ.e. vinnu við orðalistann sjálfan. f öðru lagi er orðaforðinn
ekki eins mikill og æskilegt væri, eins og sjá má af orðinu rykking sem
nefnt var hér að framan og á samanburði á orðamyndafjöldanum í
MÍM og uppflettiorðafjölda í hefðbundnu orðabókarefni, t.d. Ritmáls-
safni, en MÍM skilar aðeins broti af þeim orðaforða sem þar er.9
Textasafn sem ætti að skila öllum þeim orðaforða sem venjulegir
málnotendur hafa að einhverju leyti á valdi sínu þyrfti að vera gríð-
arlegt, án þess að því sé haldið fram að allur sá orðaforði sé á færi
hvers manns. Þetta er einmitt efni sem ætla má að notendur vilji leita
að í orðabók.
4 Vélræn orðtaka
Þær hugmyndir hafa verið uppi um allnokkurn tíma að gott væri að
orðtaka efni jafnóðum og það birtist, t.d. á vefsíðum dagblaða. Með
BÍN fylgir orðtökutól og með því er hægt að finna orðmyndir í textum
sem ekki eru í BIN. Tólið er enn á tilraunastigi og er frumstætt; það
lemmar ekki og skilar býsna óaðgengilegum listum af orðmyndum
(og öðrum strengjum). Urvinnslan er því mjög seinleg. Til þess að
tólið komi að fullu gagni þarf málfræðilega greiningu á textunum
(mörkun), lemmun og síu fyrir rusl, samanber tölur um aðskotaefni í
samanburðinum á orðaforðanum í MIM og BIN hér að framan. Með
sjálfvirkri mötun á textum, t.d. dagblöðum hvers dags, væri þannig
hugsanlegt að finna ný orð sem birtast frá degi til dags, eða a.m.k. orð
sem ekki hafa ratað á fjörur orðabókamianna fyrr.
Þegar orðtökutólið var prófað á stuttan texta um orðabókarfræði-
legt efni var afraksturinn fjögur uppflettiorð (orðmyndir í sviga) og
niðurstaðan er býsna dæmigerð, þ.e. fjögur samsett orð:
gagnaefni (gagnaefnis), einmála (einmála), orðabókareining (orðabókar-
eininganna), orðabókargögn (orðabókargögn, orðabókargagna).
íslensk orðmyndun er afskaplega virk og tilraunir með tólið sýna að
samsetningar eru líklegasta afurðin í venjulegum texta. Vandi orða-
bókaitnannsins er að finna hvaða samsetningar eiga erindi í orðabók,
þ.e. þama þarf að sigta úr þær samsetningar sem ekki eru fullkomlega
gagnsæjar (Kiástín Bjamadóttir 1995).10
9 Ritmálssafnið er að vísu efni til sögulegrar orðabókar, allt aftur til 16. aldar.
10 í tvímálaorðabók þarf einnig að taka tillit til þýðingarorðanna.