Orð og tunga - 2020, Blaðsíða 133
Eiríkur Rögnvaldsson: clarinmiðstöð á Árnastofnun 121
3 Gögn í CLARIN ERIC
Áður en gögn eru skráð í miðlægan gagnagrunn CLARIN ERIC þarf
í fyrsta lagi að útbúa lýsigögn þar sem innihaldi gagnanna er lýst og
upplýsingar gefnar um ýmis atriði sem þau varða – höfunda, tungu
mál, gagnasnið, notkunarskilmála o.s.frv. Þessi lýsigögn þurfa að
vera á samræmdu sniði til að auðvelda notkun þeirra og leit í þeim.
CLARIN ERIC hefur útbúið sniðmát fyrir lýsigögn til að leiðbeina
notendum um hvaða upplýsingar þurfi að fylgja gögnunum.
Í öðru lagi þarf að ákveða notkunarskilmála gagnanna – hvort þau
eru öllum opin og aðgengileg án takmarkana, eða hvort einhverjar tak
markanir eru á aðgengi og notkun, og þá hverjar. Það er t.d. algengt að
óheimilt sé að nýta gögn í hagnaðarskyni eða breyta þeim á einhvern
hátt. Til eru ýmsir staðlaðir leyfisskilmálar sem hægt er að velja á
milli, t.d. svonefnd Creative Commonsleyfi (https://creativecommons.
org/), en einnig er hægt að gera gögn aðgengileg með sérsniðnum
leyfum.
Í þriðja lagi getur þurft að breyta gagnasniðinu. Ýmis samræmd
snið hafa verið sett fram fyrir mismunandi tegundir mállegra gagna
– textasöfn, orðasöfn, handrit, uppskriftir hljóðskráa o.s.frv. Þar má
ekki síst nefna margvísleg snið frá Text Encoding Initiative (https://teic.
org/). Æskilegt er að gögn séu á einhverju slíku þekktu sniði eftir því
sem kostur er, en lágmarkskrafa er að sniði gagnanna sé nákvæmlega
lýst þannig að auðvelt sé fyrir notendur að átta sig á því.
Í fjórða lagi þarf að gera gögnin aðgengileg, ásamt lýsigögnum.
Það er hægt að gera á ýmsan hátt. Að sumum gögnum er eingöngu
leitaraðgangur gegnum ákveðið leitarviðmót. Notendur geta þá
leitað að orðum og orðasamböndum en það er misjafnt eftir gagna
sniði og leitarviðmóti hversu nákvæm leitin getur verið, og eftir
hvaða atriðum er hægt að leita. Í öðrum tilvikum er hægt að sækja
gögnin í heild, stundum með ákveðnum skilyrðum sem kveðið er
á um í leyfisskilmálum sem þarf að samþykkja áður en gögnin eru
sótt.
Miðlægt tölvukerfi CLARIN ERIC skannar reglulega allar lýsi
gagna skrár sem vistaðar eru á öllum CLARINmiðstöðvum. Upp lýs
ingar úr þessum skrám fara inn í miðlægan gagnagrunn, sýndarsafn
mál fanga (e. Virtual Language Observatory, https://vlo.clarin.eu/) og þar
er hægt í einni leit að leita í lýsigögnum meira en milljón málfanga um
alla Evrópu. Öllum gögnum sem eru lögð inn til einhverrar CLARIN
miðstöðvar er gefið varanlegt auðkenni (e. Persistent Identifier, PID).
tunga_22.indb 121 22.06.2020 14:03:54