Orð og tunga - 01.06.2006, Page 151
Orðabókar- og rannsóknarverkefni
149
verði nytjatexti sem skiptist milli texta um hagnýtt vísindi, náttúru-
fræði, þjóðfélagsfræði, heimsmál, viðskipti, listir, trúarbrögð, heim-
speki og tómstundir. Stefnt er að því að í málheildinni verði í fyrstu
um 25.000.000 lesmálsorð sem skiptast í um 900 textabúta. Hámarks-
stærð hvers textabúts verður 40.000 orð. Aldrei er tekinn heill texti. Ef
texti er styttri en 40.000 orð er 10% af textanum sleppt.
Þegar vinna við málheildina var skipulögð var ekki gert ráð fyrir
að safnað yrði talmáli og var það aðallega vegna þess hversu tíma-
frekt og dýrt það er. Nú hefur hins vegar komið í ljós að málheildin
getur fengið talmálstexta úr öðrum verkefnum. I fyrsta lagi er þar um
að ræða texta sem hefur verið safnað á vegum verkefnisins ÍSTAL - ís-
lenskur talmálsbanki sem unnið var fyrir styrk frá Tæknisjóði á árunum
1999-2001. í öðru lagi má nefna umræður á Alþingi sem var safnað á
vegum verkefnisins Tilbrigði í setningagerð sem hlaut öndvegisstyrk frá
RANNÍS 2005. í þriðja lagi má nefna hópviðtöl um tökuorð og erlend
áhrif sem voru hljóðrituð vegna norrænnar rannsóknar um viðhorf til
tökuorða en verða fullskráð og frágengin á vegum verkefnisins Til-
brigði í setningagerð.
Stofn málheildarinnar er textasafn sem var útbúið vegna vinnu við
íslenska orðtíðnibók sem kom út á vegum Orðabókar Háskólans 1991. í
því safni eru um 500.000 lesmálsorð og fylgir hverri orðmynd nefni-
mynd og mark og hefur greining orða í textasafninu verið leiðrétt
handvirkt. Textasafn Orðtíðnibókarinnar verður því notað sem fyrsti
vísir að málheildinni. Árið 2002 veitti menntamálaráðuneytið styrk til
verkefnis sem fólst í því að gera tilraunir til að marka íslenskan texta
á vélrænan hátt. Vinna við verkið hófst síðla árs 2002 og var lokið
í upphafi árs 2004. Niðurstöður verkefnisins verða nýttar við mörk-
un texta í málheildinni. Einnig hafa verið gerðar tilraimir við að finna
nefnimyndir orða á vélrænan hátt. Stefnt er að því að lesmálsorð verði
greind á vélrænan hátt með um 90% nákvæmni.
Við mörkunina þarf einnig að nota ýmsar hjálparskrár og orða-
söfn. Stærst þessara hjálparskráa er orðasafn sem gert hefur verið úr
Beygingarlýsingu íslensks nútímamáls. Beygingarlýsingin var upp-
haflega gerð fyrir styrk frá tungutækniverkefni menntamálaráðuneyt-
isins en hefur síðan verið aukin verulega á vegum Orðabókar Háskól-
ans. Einnig hefur verið aflað skráa yfir mannanöfn, ömefni, heiti fyr-
irtækja og skammstafanir.
Málheildir eru venjulega skráðar með stöðluðu sniði til þess að