Orð og tunga - 08.07.2019, Page 175
Steinþór Steingrímsson: Risamálheildin 163
Textafl okkur Fjöldi lesmálsorða Hlutfall Tímabil
Frétt amiðlar 795.905.613 63,2% 1998–2017
Þingræður 210.490.367 16,7% 1911–2017
Dómar 92.702.603 7,4% 1999–2017
Útvarps-/sjónvarps frétt ir 54.002.794 4,3% 2004–2017
Íþrótt avefi r 47.071.733 3,7% 2002–2017
Lög og reglugerðir 27.079.422 2,2% 1275–2017
Blogg/pistlar 11.822.688 0,9% 1973–2017
Fræðsluefni fyrir al menn ing 10.792.370 0,9% 2000–2017
Útgefnar bækur 5.247.476 0,4% 1980–2008
Lífsstíll 4.022.699 0,3% 2010–2017
SAMTALS 1.259.137.765 100%
Tafla 1: Textaflokkar í Risamálheildinni.
3.1 Leyfismál
Málheildin er gefin út undir tveimur mismunandi leyfum. Um helm-
ingur efnisins undir CC BY 4.0 leyfi1, sem er opið með litlum tak-
mörk unum. Það efni má nota í allar rannsóknir en ef textar úr því eru
birtir þarf að geta uppruna þeirra. Hinn helmingur textanna er gefinn
út undir sama leyfi og MÍM. Leyfið er takmarkaðra, það er aðeins
veitt til rannsókna í málfræðilegum rannsóknum og í máltækni, ekki
má afhenda þriðja aðila textana og útgáfa og birting þeirra texta
sem gefnir eru út undir því leyfi er bönnuð. Ástæðan fyrir þessari
tvískiptingu er að ekki allir rétthafar voru tilbúnir til að leyfa dreifingu
sinna texta með eins opnu leyfi og CC BY 4.0. Þar sem reynsla var
komin á MÍM-leyfið og notkun þess hefur gengið snurðulaust var
hægt að fá langflesta til að samþykkja það.
3.2 Vinnsla textanna
Stór hluti textanna var sóttur beint á vefsíður rétthafa textanna en
sumt fékkst sent yfir netið eða var sótt og afritað á minnislykla. Þar
sem hægt er að sækja efnið á vef hafa verið sett upp sjálfvirk forrit
sem athuga vefina daglega eða vikulega til að kanna hvort nýtt efni
hafi bæst við. Ef svo er þá er nýja efnið sótt sjálfkrafa. Þegar efnið
hefur verið sótt fer af stað ferli þar sem efnið er hreinsað. Fyrsta
skrefið er að vinna úr því lýsigögn og hreina texta. Svo er textunum
1 https://creativecommons.org/
tunga_21.indb 163 19.6.2019 16:56:18