Orð og tunga - 08.07.2019, Page 176
164 Orð og tunga
skipt upp í setningar og tóka (orð og greinarmerki) en tilreiðari úr
IceNLP-pakkanum er notaður við það (Hrafn Loftsson og Eiríkur
Rögnvaldsson 2007). Þá er hver tóki markaður. Í fyrstu útgáfu var
notast við IceStagger (Hrafn Loftsson og Östling 2013) en í annarri
útgáfu málheildarinnar er notast við nýjan tauganetsmarkara (Stein-
þór Steingrímsson og Örvar Kárason 2019). Að lokinni mörkun eru
upp flettimyndir orðanna fundnar með forritinu Nefni, sem Jón Frið-
rik Daðason smíðaði.
Að lokum eru textarnir settir upp til dreifingar á XML-sniði og
gerð ir aðgengilegir í leitarvél fyrir málheildir og n-stæðuskoðara.
4 Aðgengi að gögnunum
Risamálheildina má sækja með öllum lýsigögnum á málföng.is. Sem
fyrr segir er hún einnig leitarbær í öflugri málheildarleitarvél á vefn-
um málheildir.árnastofnun.is en þar að auki er hægt að skoða tíðni orða
eða orðastæðna yfir tíma í n-stæðuskoðara sem smíðaður var ofan á
gögnin í Risamálheildinni. Hann er aðgengilegur á n.árnastofnun.is.
4.1 Málheildarvefur
Hægt er að leita í öllum textum málheildarinnar í sérstakri málheildar-
leitarvél (sjá Mynd 1). Við aðlöguðum sænsku málheildarleitarvélina
Korp að íslensku en góð reynsla hefur verið af henni á hinum Norð-
ur löndunum. Leitarvélina má stilla þannig að einungis er leitað í
ákveðn um hlutum málheildarinnar eða í öllum textum hennar í
einu. Hægt er að leita að stökum orðmyndum eða uppflettimyndum
orða, orðasamböndum eða málfræðilegum formdeildum. Hægt er
að skoða hvenær tiltekin orð eða málfræðilegar formdeildir standa
saman, eða í nágrenni hvort við annað, en einnig er hægt að tak-
marka leitina við lýsigögnin (t.d. takmarka leit við ártöl eða tímabil,
höfunda eða jafnvel þingræður tilgreindra þingmanna). Vefurinn
þýðir fyrirspurnir notenda yfir á CQP-fyrirspurnarmálið, sem er
sérhannað fyrir málheildir, en gagnagrunnurinn sem geymir texta-
gögnin sjálf skilur aðeins það fyrirspurnarmál. Notendur geta líka
skrifað fyrirspurnir sínar beint á CQP-fyrirspurnarmálinu, sem er
nokkuð aðgengilegt þeim sem reynslu hafa af forritun eða vinnu við
gagnagrunna, en aðrir ættu einnig að geta lært grunnatriðin með
aðstoð notkunarleiðbeininga sem aðgengilegar eru á síðunni.
tunga_21.indb 164 19.6.2019 16:56:18