Orð og tunga - 01.06.2013, Page 35
Kristín Bjarnadóttir: Hvert á að sækja orðaforðann í orðabók? 25
hægt. Með tilurð Markaðrar íslenskrar málheildar (hér eftir MÍM) opnast
því nýir möguleikar í íslenskri orðabókargerð (Sigrún Helgadóttir
o.fl. 2012). Sama á reyndar við um önnur rafræn textasöfn, t.d. Is-
lenskt textasafn Stofnunar Árna Magnússonar í íslenskum fræðum1
og íslenskan orðasjóð2 hjá Háskólanum í Leipzig (Erla Hallsteinsdóttir
2007, Quasthoff o.fl. 2012), þó að slík söfn séu ekki eins aðgengileg til
úrvinnslu og MÍM.
I þessari grein er fjallað um þá möguleika sem felast í þessum
nýju gagnauppsprettum og gamlar og nýjar aðferðir bornar saman.
Niðurstaðan er að á þessu stigi verður að nota allt efni sem tiltækt
er til þess að notendur eigi möguleika á að finna sem flest af því sem
þeir leita að. Islenskir orðabókarnotendur eru fremur íhaldssamir í
orðabókarnotkun og leita einna helst að merkingu orða og viðeigandi
notkun þeirra (Ásta Svavarsdóttir 2008), en orðabókarmenn vita að
væntingar notenda til orðabóka eru langt umfram það sem nokkur
leið er að verða við. Þar þarf ekki að nefna annað en þá kröfu margra
notenda að öll orð sem eiga sér viðurkenndan og fastan sess í málinu
finnist í orðabókinni, án þess að tekið sé fram til hvaða orðabókar er
vísað. Orð sem ekki finnast í „orðabókinni" eru þá talin óbrúkleg og
óviðurkennd. Þessari kröfu geta orðabókarmenn seint sinnt að fullu.
Engin orðabók verður nokkurn tíma tæmandi heimild um málið og
hver á að taka sér það alræðisvald að ákveða hvaða orð mega lifa í
málinu og hver ekki? Sem betur fer hafa orðabækur heldur ekki slíkt
heljarafl í reynd en verkefnið er samt sem áður að sýna orðaforðann
í málinu sem best, eins og hann er á hverjum tíma, og þess vegna er
vert að skoða ný gögn og nýjar aðferðir.
Efnisskipan er þessi: I 2. kafla er fjallað um hefðbundið íslenskt
orðabókarefni, útgefnar orðabækur og önnur orðfræðileg gögn til
orðabókargerðar sem unnin hafa verið með hefðbundnum hætti, þ.e.
með hefðbundinni orðtöku. Þar er líka sagt frá Norræna verkefninu
svokallaða þar sem gerð var tilraun til að sameina sem mest af þessu
efni í rafrænan íslenskan orðabókarstofn. I 3. kafla er fjallað um nýj-
ar gagnalindir til orðabókargerðar, þ.e. rafræna texta, markaða og
ómarkaða. I 4. kafla er fjallað stuttlega um vélræna orðtöku. I loka-
kaflanum er fjallað um samspil gamalla og nýrra aðferða en niðurstað-
1 í íslensku textasafni eru gamlir og nýir textar, u.þ.b. 67 milljónir lesmálsorða. Nið-
urstöður leitar birtast sem orðstöðulykill, sjá http://arnastofnun.is/page/ama-
stofnun_gagnasafn_textasafn.
2 I Islenskum orðasjóði er nú u.þ.b. hálfur milljarður lesmálsorða af vefnum; sjá http://
wortsdratz.uni-leipzig.de/ws_ice/.