Íslenskt mál og almenn málfræði - 01.01.2001, Page 84
82
Eiríkur Rögnvaldsson
Það er fljótsagt að ekkert íslenskt orðasafn af þessu tagi er til.
Vissulega má segja að bæði íslensk orðabók (2000) og íslenskur orða-
bókargrunnur Orðabókar Háskólans („norræni stofninn“ svokallaði)
gætu orðið upphaf að slíku safni. Bæði söfnin skortir þó þá tvo meg-
inþætti sem áður voru nefndir og greina tungutæknisöfn frá venjuleg-
um orðabókum; upplýsingamar í þeim eru alltof takmarkaðar, og
framsetning þeirra er hvorki nógu formleg né stöðluð. Þar að auki er
orðaforði beggja safnanna of ósamstæður og götóttur.
2.2.2 Málheildir
í grannlöndum okkar eru víðast hvar til eða í uppbyggingu stórar mál-
heildir (e. corpora, et. corpus). Með málheild er átt við textasafn sem
er sett saman eftir ákveðnum reglum um t. d. efnisflokka, kyn og ald-
ur höfunda o.s.frv., þannig að málheildin gefí sem besta mynd af því
sem verið er að rannsaka. Málheild þarf því að greina frá textasafni
(e. collection oftexts), sem er tilviljanakennt samsafn texta, án þess að
hugað hafi verið að neins konar hlutföllum. Meðal þekktra málheilda
má nefna British National Corpus (BNC, sjá http://info.ox.ac.uk/bnc/)
og hinn norska Nasjonalt korpus for sprákteknologi. Það eru
hvorttveggja 100 milljón orða söfn, sem eru samsett úr sem fjöl-
breyttustum textum í ákveðnum hlutföllum.6
Eina íslenska málheildin sem sett hefur verið saman í rannsókna-
skyni er sú sem liggur til grundvallar íslenskri orðtíðnibók (1991).
Hún er ekki stór, aðeins 500 þúsund orð; sett saman úr 100 textabút-
um sem hver var u.þ.b. 5000 lesmálsorð. Þeir voru úr fimm texta-
6 f tillögum undirbúningsnefndar norsku málheildarinnar var t. d. gert ráð fyrir eft-
irfarandi skiptingu (sjá http://www.tele.ntnu.no/users/svendsen/korpus/kortrapport.
Pdf).
1. Fjölmiðlaefni (20%); dagblöð, héraðsblöð, textavarp, texti við fréttir.
2. Fagurbókmenntir (25%); skáldsögur, smásögur, leikrit, texti við sjónvarpsþætti
og kvikmyndir.
3. Nytjatextar (50%); fræðibækur af ýmsu tagi, tímarit og vikublöð, kennslubæk-
ur, uppflettibækur, stjómvaldstextar.
4. Óprentað efni og smáprent (5%); auglýsingar, notendaleiðbeiningar, sölu- og
kynningarefni; viðskiptatextar (minnisblöð, fundargerðir), bréfaskipti (bréf og
tölvupóstur).