Orð og tunga - 08.07.2019, Síða 25
Halldóra Jónsdóttir og Þórdís Úlfarsdóttir: Kjarni tungumálsins 13
öllum orðmyndum tiltekins orðs í einu en annars er þetta
texta safn ekki markað málfræðilega.
• Mörkuð íslensk málheild (MÍM) er málfræðilega markað textasafn
með 25 milljónum lesmálsorða. Textarnir eru fjölbreyttir og
eru þeir allir frá árinu 2000 og yngri.
• Tímarit.is er stafrænt safn sem veitir aðgang að milljónum
mynd aðra eða skannaðra blaðsíðna úr dagblöðum og tíma rit-
um frá upphafi vega. Blöðin hafa að geyma almennt fréttaefni,
auglýsingar, efni á sviði bókmennta, sagnfræði, ættfræði, þjóð-
lífs, menningar, atvinnuvega og viðskipta.
• Risamálheildin er nýjasta textasafnið fyrir íslensku og eins og
nafn þess bendir til er það gríðarmikið að vöxtum, með yfir
milljarð lesmálsorða. Mikið af efninu er úr fréttamiðlum, stjórn-
sýslu, fræðslumiðlum og bloggi (sjá Steinþór Steingrímsson,
Sigrúnu Helgadóttur og Eirík Rögnvaldsson 2018).
Eins og ISLEX er Íslensk nútímamálsorðabók að miklu leyti grundvölluð
á textasöfnum, en sú vitneskja sem sækja má þangað hefur fjölþætt
gildi í orðabókavinnu:
• Textarnir gefa vísbendingu um tíðni orðsins, þ.e. hversu al-
gengt eða sjaldgæft það er í málinu. Auk þess er í mörgum
til fell um hægt að sækja slíkar tölur beint í gagnagrunn við-
kom andi textasafns.
• Upplýsingar fást um aldursdreifingu orðsins og notkunarsvið
þess.
• Hægt er að ákvarða merkingu orðs, eina eða fleiri, út frá sam-
hengi þess í textanum.
• Ákveðin mynstur orða geta komið í ljós í röðuðum leitar-
niðurstöðum, þ.e. mynstur um fasta orðanotkun geta birst á
skýran hátt.
Til eru öflug tól sem aðstoða orðabókarsmiðinn við að velja mikilvæg
orð og orðasambönd úr orðaforðanum, en það gerir orðabókarvinn-
una mun sjálfvirkari en áður hefur þekkst. Þetta hefur þó ekki verið
notað við gerð Íslenskrar nútímamálsorðabókar.
tunga_21.indb 13 19.6.2019 16:55:49