Orð og tunga - 01.06.2013, Page 41
Kristín Bjarnadóttir: Hvert á að sækja orðaforðann í orðabók?
31
en á þeirri aðferð og hefðbundinni lestrarorðtöku er bitamunur en
ekki fjár. Talsverður vinnusparnaður er samt sem áður fólginn í þess-
ari aðferð þar sem ekki þarf að skrifa efnið upp eða slá það inn. I eigin-
legri vélrænni orðtöku er markmiðið að fá yfirlit um allar orðmyndir
í textanum en orðtakan verður markvissari eftir því sem greiningin
á textunum er betri þar sem tvíræðni orðmynda er gríðarleg í ís-
lensku.6
Sá grundvallarmunur er á vélrænni orðtöku og öðrum orðtöku-
aðferðum að í vélrænu orðtökunni er allur orðaforðinn í viðkomandi
texta undir; þar er unnið með tæmandi lista af orðum og orðmyndum.
Þar þarf því að grisja og velja efnið í hvert orðabókarverk fyrir sig, eftir
þeim aðferðum sem henta hverju sinni. I hefðbundinni orðtöku er
orðunum hins vegar safnað eftir tilfinningu orðtökumannsins, venju-
lega án mikils samanburðar við það efni sem fyrir er. Þar takmarkast
umfangið á textunum af því sem er í mannlegum mætti að lesa og þess
vegna er að einhverju leyti tilviljanakennt hvaða orð eru orðtekin.
Rafrænir textar eru að sjálfsögðu einnig notaðir til dæmaleitar í
orðabókargerð. Með því að ganga út frá fyrirframgefnum orðalista
og nota textasöfn eða málheildir til dæmaleitar fæst betra yfirlit yfir
raunverulega orðanotkun og setningarlegt umhverfi en áður hefur
verið kostur á. Hins vegar skilar slík vinna ekki yfirliti yfir heildar-
orðaforðann í textunum nema með notkun orðtökutóls þar sem allar
orðmyndir eru skoðaðar. Þarna á milli er verulegt stökk í tæknilegum
efnum þar sem dæmaleit er möguleg án þess að fyrir liggi málfræðileg
greining á textunum en orðtaka byggist á því að textarnir séu greindir
og lemmaðir (þ.e. að gefið sé uppflettiorð eða lemma fyrir hverja orð-
mynd).
Helstu gagnalindir orðabókarmannsins nú um stundir eru því raf-
rænir textar, hverju nafni sem þeir nefnast, og Mörkuð íslensk málheild
(MÍM), þar sem málfræðileg greining fylgir hverri orðmynd (Sigrún
Helgadóttir o.fl. 2012). Beygingarlýsing íslensks nútímamáls (BIN) gegn-
ir hlutverki samanburðarefnis í þessu tilliti en BIN er safn 270 þúsund
beygingardæma, u.þ.b. 5,8 milljónir beygingarmynda með greining-
arstrengjum (mörkum) (Kristín Bjarnadóttir 2012). Efni úr almennu
máli í BÍN er að mestu leyti úr orðabókum og söfnum OH, þ.m.t.
Norræna verkefninu.
6 í Beygingarlýsingu íslensks nútímamáls (BIN) hafa aðeins 31,5% orðmynda bara einn
greiningarstreng (Kristín Bjamadóttir 2012). Sjá nánar um BIN hér á eftir.