Orð og tunga - 01.06.2007, Síða 36
26
Orð og tunga
verið út á rafrænu formi, bæði textinn í heild (útgáfa Svarts á hvítu)
og orðstöðulykill sem unninn er upp úr honum. Eiríkur Rögnvalds-
son (1990,1996 o.v.) hefur fjallað um gerð hans og nýtingu, þ.á m. við
orðabókagerð, og hann hefur nýtt þennan efnivið ásamt fleiri textum
í rafrænu formi til ýmissa rannsókna (sjá t.d. Eiríkur Rögnvaldsson
1994-5, 2002).
í greininni verður fjallað um gerð stórra rafrænna málsafna sem
ætluð eru til margvíslegra verkefna, einkum hagnýtra og fræðilegra
rannsókna í málvísindum og tungutækni. Mest er fjallað um samsetn-
ingu slíkra safna, einkum val á textum. Sérstök áhersla er lögð á hlut
óútgefins efnis, bæði óformlegra ritmálstexta af ýmsu tagi og efnis úr
talmáli. Rætt er um gildi þess að málsöfn rúmi slíkt efni ekki síður en
fjölbreytilega ritmálstexta og jafnframt er gerð grein fyrir ýmsu sem
greinir söfnun, úrvinnslu og frágang talmálsefnis frá efnisöflun úr rit-
máli. Um þessi atriði fjalla annar og þriðji kafli greinarinnar, sá fyrri
um svonefndar málheildir (e. corpus) almennt, samsetningu þeirra og
notagildi, en hinn síðari um hlut talmálsins í slíkum söfnum og um
öflun og úrvinnslu talmálsefnis. í fjórða kafla er sjónum svo beint að
orðabókum, hlutverki talmálsefnis við gerð þeirra og áhrifum sem
slíkt efni getur haft á orðlýsinguna.
Greinin á rætur að rekja til aðildar höfimdar að tveimur stórum
verkefnum sem nú er unnið að. Annað þeirra er Mörkuð íslensk mál-
heild (MÍM) 1 sem er í smíðum við Orðabók Háskólans (nú orðfræði-
svið Stofnunar Árna Magnússonar í íslenskum fræðum). Hitt er rann-
sóknarverkefnið Tilbrigði í setningagerð2 en einn þáttur þess beinist að
því að draga saman og ganga frá textum úr talmáli til notkunar í
rannsókninni. Þótt verkefnin séu ólík fela þau bæði í sér viðamikla
efnissöfnun og samvinna hefur tekist milli þeirra um samnýtingu á
gögnum og verkaskiptingu við öflun þeirra og úrvinnslu til hagsbóta
fyrir bæði verkefnin. Stór hluti talmálsefnisins er reyndar fenginn úr
eldri verkefnum og sumarið 2006 var unnið að söfnun óformlegra rit-
1 Verkefnið er unnið fyrir styrk úr tungutækniáætlun Menntamálaráðuneytisins
undir stjóm Sigrúnar Helgadóttur (sjá nánar: http://www.lexis.hi.is/malheild.htm).
2Verkefnisstjóri er Höskuldar Þráinsson. Að verkefninu stendur hópur mál-
fræðinga við Háskóla íslands, Stofnun Árna Magnússonar í íslenskum fræð-
um (áður Orðabók Háskólans) og Kennaraháskóla íslands. Verkefnið teng-
ist stærra norrænu verkefni, ScanDiaSyn (Scandinavian Dialect Syntax; sjá:
http://uit.no/scandiasyn/scandiasyn/). íslenska rannsóknin nýtur öndvegisstyrks
frá Rannís 2005-2007.