Orð og tunga - 01.06.2014, Page 166
154
Orð og tunga
stafrófsröð. Meginhluti sjálfrar tíðniorðabókarinnar er svo á geisladiskinum,
skrá yfir eina milljón orðmynda sem eru þær algengustu í málheildinni sem
liggur að baki ásamt tíðniupplýsingum um þær. Skráin er annars vegar birt í
stafrófsröð á pdf-formi (í þremur hlutum) og hins vegar í þremur textaskjölum
þar sem efninu er í fyrsta lagi raðað í stafrófsröð, í öðru lagi í tíðniröð og í
þriðja lagi í öfugri stafrófsröð. Rafræna efnið má nota á margvíslegan hátt
með svokölluðu „creative commons" leyfi (CC-BY) sem heimilar notendum
að hlaða efninu niður og vinna frekar úr því.
Orðmyndirnar og tíðniupplýsingarnar byggjast á risastóru textasafni
með tæplega 34 milljónum setninga og 545 milljónum lesmálsorða. Textarnir
eru frá tímabilinu 2001-2011 og þeir eru að stærstum hluta fengnir úr ís-
lensku vefsíðusafni Landsbókasafns - Háskólabókasafns og úr íslenskri út-
gáfu Wikipedia en einnig er í safninu allmikið efni úr dagblöðum. Efnið end-
urspeglar því íslenska nytjatexta í upphafi 21. aldar, einkum ritmálið eins
og það birtist í vefmiðlum. Oll úrvinnsla efnisins var rafræn og er aðferð-
unum lýst í inngangi verksins. Einungis sá hluti efnisins sem birtist í prent-
aða hlutanum, þ.e.a.s. skrár um 10 þúsund algengustu orðmyndirnar, var
yfirfarinn handvirkt. Tíðniupplýsingarnar snúa því að orðmyndum fremur
en orðum. Mismunandi myndir sama orðs, hvort sem þær tengjast ólíkum
rithætti eða beygingu, eru ekki tengdar saman og orðmyndum með stórum
og litlum upphafsstaf er haldið aðgreindum. Þannig birtist t.d. orðið adrena-
lín í þrettán myndum: Adrenalin, adrenalin, Adrenaline, adrenaline, adrenalín,
Adrenalín, adrenalíni, Adrenalíni, adrenalínið, Adrenalínið, adrenalíninu, adrena-
líns og adrenalínsins; í stafrófsröðuðu listunum birtast myndirnar þó yfirleitt
í röð eða a.m.k. í námunda hver við aðra svo notendur hafa yfirsýn yfir þær.
Einstakar orðmyndir geta sömuleiðis verið tví- eða margræðar, t.d. Gestur
(sérnafn eða samnafn (í upphafi setningar)), hafi (so. hefur eða no. haf) o.s.frv.
Orðabókin er systurverkefni Islensks orðasjóðs (http://wortschatz.uni-leipzig.
de/ws_isl/) sem byggir á sama textagrunni og með því að nota hann samhliða
má fá hugmynd um dreifingu og að nokkru leyti merkingu orðmyndanna í
íslenskri tíðniorðabók.
íðorð og sérfræðimál
Tölvuorðasafn. Islenskt-enskt, enskt-íslenskt. 5. útgáfa, aukin og endur-
bætt. Orðanefnd Skýrslutæknifélags Islands tók saman. Reykjavík:
Orðanefnd Skýrslutæknifélags íslands. 2013. (570 bls.) Rafræn út-
gáfa (pdf: http://tos.sky.is/site_media/TO_utgafa5.pdf) og vefútgáfa
(http://tos.sky.is/).
Nýlega kom út fimmta útgáfa af Tölvuorðasafni. Fyrsta útgáfa þess er frá 1983
og síðan kom það út 1986,1998 og 2005, aukið og endurbætt með hverri nýrri
útgáfu. I formála Sigrúnar Helgadóttur, formanns orðanefndarinnar, er gerð
ítarleg grein fyrir efni útgáfunnar. Þar kemur m.a. fram að hugtökum hafi