Orð og tunga - 01.06.2013, Page 42
32
Orð og tunga
3.1 Rafrænir textar
Á OH var byrjað að safna rafrænum textum um eða upp úr 1980. Safn-
ið heitir íslenskt textasafn og í því eru nú u.þ.b. 67 milljón lesmálsorð.
Þar eru gamlir og nýir textar af ýmsum toga sem skiptast á milli 30
efnisflokka. Safninu fylgir ekki orðalisti og engin leið er að komast
að því hver orðaforðinn er nema með málfræðilegri greiningu. Orða-
bókarmaðurinn þarf því að vita fyrir fram að hverju hann er að leita
og getur ekki að óbreyttu notað safnið til orðtöku. Það er hins vegar
frábær uppspretta dæma, með þeim annmarka þó að flokkun dæm-
anna getur verið mjög seinleg, m.a. vegna tvíræðni orðmynda. I al-
gengum orðum geta dæmi líka orðið óviðráðanlega mörg og þá getur
verið djúpt á því sem leitað er að og erfitt að ná yfirsýn yfir efnið.
Önnur heimild sem vænlegt er að leita dæma í er t.d. tímaritasafn
Landsbókasafns - Háskólabókasafns, Tímarit.is. Þar eru ljóslesnir
textar, ásamt myndum af ritunum. Kosturinn við tímaritasafnið er að
aldursmerking skilar sér vel með dæmunum en helsti ókosturinn er
sá að í ljóslestrinum er talsvert af villum. Þá er vert að nefna Islenskan
orðasjóð, sem áður var minnst á (sjá nmgr. 2), sem er risavaxið safn
af íslenskum vefsíðum en talsvert er af villum í því safni líka. Þessar
heimildir nýtast best til leitar að tiltölulega sjaldgæfum orðum sökum
þess hve seinlegt er að leita í þeim.
3.2 MÍM og BÍN
MÍM er textasafn með málfræðilegri greiningu sem unnið hefur verið
að á OH og Stofnun Árna Magnússonar í íslenskum fræðum frá árinu
2002. Textarnir eru allir frá 2000-2009 og þeir eru úr eins fjölbreyttu
efni og nokkur kostur er. I MIM eru u.þ.b. 25 milljón lesmálsorð.
Hverju orði fylgir mark, þ.e. greiningarstrengur fyrir orðflokk og
beveinearleear upplýsinear. Markamengið er stórt, yfir 600 mörk
(Sigrún Helgadóttir 2012).
Með því að bera saman MIM og BIN ætti að vera hægt að finna
ný orð í málinu eða a.m.k. þau orð sem ekki hafa ratað til orðabókar-
manna. Jafnframt finnast gloppur í BIN sem þarf að uppfæra jafn-
óðum. Mikilvægasti kosturinn við MIM til orðabókargerðar er sá
að þar gefst í fyrsta sinn kostur á skilvirkri vinnu við orðalista með
tíðnitölum sem t.d. er hægt að nota til flokkunar á uppflettiorðum í
orðabók. Með þessu ætti að vera tryggt að algengustu orð vanti ekki,