Orð og tunga - 2020, Qupperneq 132
120 Orð og tunga
2 Hvað er CLARIN ERIC?
CLARIN ERIC er stofnað til að halda utan um stafræna innviði –
gögn og hugbúnað – til nota við rannsóknir í félags og hugvísindum.
Eftir að almenn tölvuvæðing hófst fyrir 40 árum eða svo hefur orðið
til gífurlega mikið af stafrænum gögnum af ýmsu tagi – textasöfn,
orðasöfn, og alls kyns skrár. Sumt af þessu hefur verið byggt upp frá
grunni á undanförnum áratugum, en einnig hefur verið gert mikið
átak í því að koma eldri gögnum á stafrænt form.
Stafræn gögn bjóða vitaskuld upp á margvíslega möguleika um
fram pappírsgögn. Það er margfalt fljótlegra að leita í þeim og vinna
ýmiss konar skrár og töflur upp úr þeim. Stafræn gögn eru líka margfalt
sveigjanlegri en pappírsgögn – auðvelt að lagfæra villur í þeim, uppfæra
þau, raða þeim á mismunandi hátt o.s.frv. Notendur eru ekki lengur
háðir einu eintaki á tiltekinni stofnun eða safni – það er auðvelt að afrita
gögnin og dreifa þeim, eða gera þau aðgengileg á netinu.
Þetta stórbætta aðgengi að gögnum leiðir vitanlega til þess að
miklu fleiri fræðimenn geta nýtt þau en áður, og eflir þannig og styrkir
marg víslegar rannsóknir. En þetta þýðir líka að fólk er oft að skoða
og vinna með gagnasöfn sem það þekkir ekki fyrir. Söfnin eru mjög
margbreytileg, framsetning þeirra misjöfn, leitarmöguleikar ólíkir, og
svo mætti lengi telja. Það getur verið mjög flókið og tímafrekt fyrir
ókunnuga að setja sig inn í þetta og átta sig á því hvernig hægt er að
finna það sem leitað er að í gögnunum.
Meginmarkmið CLARIN ERIC er að nýta þá möguleika sem staf
ræn málleg gögn, málföng (e. language resources), bjóða upp á og bæta
aðgengi að þessum gögnum og hugbúnaði sem gerður er til að vinna
með þau. Þetta krefst margvíslegs undirbúnings sem mikilvægt
er að sem víðtækust samvinna sé höfð um. Jafnframt er markmið
CLARIN ERIC að notendur geti nýtt notandanafn og aðgangsorð við
heimastofnun sína til að fá aðgang að þessum gögnum og búnaði (e.
single signon).
Í hverju þátttökulandi eru settar upp CLARINmiðstöðvar, ein eða
fleiri. Þessar miðstöðvar eru af mismunandi tegundum. Einfaldasta
tegundin eru svokallaðar Cmiðstöðvar (e. CLARIN CCentre) sem
varð veita lýsigögn (e. metadata), en aðaltegundin er svokallaðar Bmið
stöðvar (e. CLARIN BCentre) sem varðveita gögn ásamt lýsigögnum
og veita ákveðna þjónustu, s.s. upplýsingar um gögn og tæknilega
ráðgjöf. Þriðja tegundin er svo Kmiðstöðvar (e. CLARIN KCentre) sem
eru upplýsingaveitur um tiltekin málleg efni, t.d. einstakt tungumál.
tunga_22.indb 120 22.06.2020 14:03:53