Morgunblaðið - Sunnudagur - 13.01.2019, Blaðsíða 4
INNLENT
4 MORGUNBLAÐIÐ SUNNUDAGUR 13.1. 2019
Liður í að bjarga íslenskunni
Eiríkur Rögnvaldsson, prófess-or emeritus, verður í 40%starfi sem landsfulltrúi
CLARIN á Íslandi, en CLARIN er
eitt af rannsóknarinnviðaverkefnum
Evrópusambandsins. Eiríkur segir
að í tengslum við máltækniátak ís-
lenska ríkisins verði til margs kon-
ar málleg gögn sem eigi að vera öll-
um opin. Mikilvægt er að þessi
gögn séu tryggilega geymd og að-
gengileg, skráð samkvæmt
ákveðnum stöðlum og leyfum og á
stöðluðu formi. Hann segir að með
þátttöku í CLARIN fáum við Ís-
lendingar aðgang að bæði búnaði
og þekkingu sem auðveldar utan-
umhald þessara gagna.
„Ég er búinn að vera að vinna að
því í tíu ár að koma Íslandi inn í
þetta verkefni,“ segir Eiríkur, sem
gat því ekki sleppt tækifærinu að
taka þátt í verkefninu þótt hann
hafi farið á eftirlaun í sumar eftir
að hafa kennt íslensku og málvís-
indi við Háskóla Íslands í áratugi.
Hagstæð þróun
Af hverju er verkefnið mikilvægt á
þessum tímapunkti?
„Núna er að fara af stað mál-
tækniátak ríkisstjórnarinnar en
grundvallaratriði í því er að byggja
upp alls konar málleg gagnasöfn,
textasöfn, orðasöfn, upptökur af töl-
uðu máli og svo framvegis. Aðferðir
í máltækni hafa breyst heilmikið á
seinustu árum. Áður fyrr þurfti að
skrifa sérstakan hugbúnað fyrir
hvert tungumál til að þróa t.d. leið-
réttingar- eða þýðingarforrit. Það
er mikið mál, jafn mikið fyrir
tungumál sem 300 þúsund manns
tala eins og 300 milljónir. Þróunin
hefur verið okkur hagstæð að því
leyti að aðferðirnar eru að verða
miklu óháðari tungumálinu með
gervigreind og tauganetum. Þær
aðferðir byggjast í einfölduðu máli
fyrst og fremst á því að tölvurnar
eru látnar fara í gegnum gífurlega
mikið af gögnum en í þessu tilviki
væru það hljóðupptökur eða textar.
Tölvunni er alveg sama hvers konar
gögn hún er með og hvort hún er
með íslenskan eða enskan texta;
það sem hún gerir er að leita að
munstrum sem síðan er hægt að
nota í alls konar hugbúnaði,“ segir
Eiríkur.
„Eitt af því sem er lögð mikil
áhersla á í þessu máltækniverkefni
hérna er að byggja upp gögn og
gagnasöfn sem síðan er hægt að
nota. Grundvallaratriði í því er að
þau gögn eiga að vera opin og öll-
um aðgengileg,“ segir hann og
heldur áfram:
„Ýmis fyrirtæki geta gengið að
þessum gögnum og vita þá hvers
konar gögn þau hafa. Ef fyrirtæki
vill þróa vélrænar þýðingar milli ís-
lensku og einhverra mála þá liggi
fyrir alveg nákvæmar upplýsingar
um hvaða gögn eru til og á hvaða
formi þau eru.“
Eitt meginatriði í máltækniverk-
efninu er að ná sambandi við al-
þjóðleg stórfyrirtæki á borð við Go-
ogle, Apple og Amazon og láta vita
að þessi gögn séu til á íslensku og
biðja þau að fella þau inn í hug-
búnað sinn, útskýrir Eiríkur. Þá er
mikilvægt að fyrir liggi að gögnin
séu gerð samkvæmt ákveðnum
stöðlum.
CLARIN er ekki aðeins hugsað
fyrir máltækni heldur fyrir hvers
kyns rannsóknir í félags- og hugvís-
indum sem nýta málleg gögn. Verk-
efni Eiríks verður fyrst um sinn að
koma á fót samstarfshópi stofnana
sem búa yfir mállegum gögnum og/
eða nýta slík gögn. Síðan þarf að
vinna að því að koma upp íslensku
CLARIN-tæknisetri og gera marg-
vísleg gagnasöfn aðgengileg í gegn-
um það. Enn fremur liggur fyrir að
kynna CLARIN og gagnsemi þess
fyrir stofnunum og fræðafólki. Ís-
lenskir fræðimenn fá þarna aðgang
að gagnasöfnum í yfir 20 Evr-
ópulöndum, auk þess sem aðgengi
að ýmsum innlendum gagnasöfnum
mun væntanlega batna smátt og
smátt.
Móðurmál í raddstýringu
Eiríkur hlær við þegar spurt er
hvort þetta sé verkefnið sem bjargi
íslenskunni. Hann játar því þó að
þetta sé mikilvægt. Tæki séu orðin
raddstýrð og við getum ekki notað
móðurmálið við stýringuna. „Þá er
bara tímaspursmál hvenær unga
fólkið spyr hvers vegna við erum að
púkka upp á þetta mál ef við getum
ekki notað það í því sem okkur
finnst spennandi. Það er mjög mik-
ilvægt að koma íslenskunni í þenn-
an heim. Það skiptir heilmiklu máli
að þessi gagnasöfn verði til, þau
verði aðgengileg og stöðluð.“
„Ég er búinn að vera að vinna að því
í tíu ár að koma Íslandi inn í þetta
verkefni,“ segir Eiríkur í viðtalinu.
Morgunblaðið/Kristinn Magnússon
Stefnt er á að öll stafræn málgögn verði aðgengileg í gegnum einn sameiginlegan netaðgang í Evrópu. Eiríkur Rögnvaldsson
fer fyrir verkefninu hérlendis, sem nýtist jafnt máltækniverkefnum og rannsóknarverkefnum í félags- og hugvísindum.
Inga Rún Sigurðardóttir ingarun@mbl.is
Heitið CLARIN stendur fyrir
„Common Language Resourc-
es and Technology Infrastruct-
ure“. Meginmarkmið CLARIN
er að öll stafræn málföng, það
eru gagnasöfn um tungumál og
önnur málsöfn og mállegar
heimildir alls staðar að úr Evr-
ópu (og víðar), verði aðgengileg
í gegnum einn sameiginlegan
netaðgang, til rannsókna í hug-
og félagsvísindum og til tækni-
þróunar. Með þessum innviðum
veitir CLARIN aðgang að staf-
rænum málgögnum (textum,
hljóði og mynd), sem vísinda-
menn geta nýtt sér. CLARIN
býður upp á þróuð verkfæri til
að skoða, greina og vinna með
slík gagnasöfn, hvar sem þau
eru staðsett.
Ákvörðun um þátttöku Ís-
lands í CLARIN var tekin á síð-
asta ári í tengslum við mál-
tækniátak ríkisins sem er að
fara af stað. Mennta- og menn-
ingarmálaráðuneytið er hinn
formlegi aðili og fjármögnun
þátttökunnar er hluti af mál-
tækniátakinu, en Árnastofnun
hefur verið falið að halda utan
um verkefnið.
Hvað er CLARIN?
Mig dreymir stundum um að vinna stóra vinning-inn í lottóinu. Reyndar ekki bara lottóinu held-ur Víkingalottóinu (sem heitir reyndar núna
Vikinglottó – hvernig sem stendur á því). Þar eru alltaf
einhverjar bilaðar upphæðir sem maður nær ekki alveg
að skilja en veit samt að væri meiriháttar að fá.
Ég veit líka að ég yrði ekki einn af þessum vitleys-
ingum sem maður les um sem fá stóra vinninginn og eru
búnir með peninginn tveimur árum seinna. Líta bara út
eins og þeir hafi verið allan tímann í partíi á Selfossi og
Magaluf og skilja ekkert.
Það er reyndar nóg af tækifærum. Mér finnst Ólafur
Egilsson, rödd víkingalottósins, öskra á mig í hverri viku
að ef ég bara gæti grísað á þessar tölur þyrfti ég aldrei að
vinna framar. Og hversu gaman sem er í vinnunni minni
þá er það alltaf soltið spennandi hugmynd. Bara gera
ekkert nema kaupa hluti á netinu. Svo ríkur að maður
gengur aldrei í sömu fötunum og situr bara og röflar á
Twitter.
En hugsum rökrétt. Ég er aldrei að fara að vinna í lott-
óinu. Ég er með miða í áskrift en þegar sagt er frá vinn-
ingshafanum er þetta alltaf einhver netlaus lúði sem hef-
ur farið út í búð og keypt miðann. Helst í Kópavogi,
einhverra hluta vegna. Eða jafnvel enn lengra út á landi.
„Vinningsmiðinn var keyptur í Olísskálanum í blablabla.“
Og ef ég les enn eina fyrirsögn sem byrjar á „Heppinn
Norðmaður“ þá öskra ég.
Einu sinni vann ég með manni sem gerði ráð fyrir því
að vinna í Happdrætti Háskólans. Það var í alvöru hluti af
heimilisbókhaldinu hjá honum. Þegar það gerðist ekki fór
hann á taugum. Við gerðum í raun aldrei ráð fyrir honum
í vinnu fyrsta dag mánaðar því þá var hann að redda yfir-
drætti.
En ég hef val. Ég get haldið áfram að svekkja mig á því
að komast aldrei í meira en þrjár tölur eða horft framan í
ískaldan veruleikann. Þetta mun aldrei gerast. Til þess er
ég bara of heppinn á öðrum sviðum.
Ég reyni frekar að horfa á litlu sigrana, sem koma í
dagsins önn. Eins og þegar maður fær stóra skápinn í
sundinu. Eða þegar maður heyrir sundlaugarvörðinn
taka æðiskast og þetta eru ekki börnin mín. Eða þegar
allir á undan þér í röðinni eru bara að kaupa eitthvert
smotterí og muna pin-númerið sitt í fyrstu tilraun. Eða
þegar stæði losnar á besta stað á föstudegi rétt fyrir lok-
un og þú á leið í ríkið. Eða þegar maður fær sæti við
neyðarútgang með auknu fótaplássi. Eða þegar það sem
mig vantar fer akkúrat á útsölu og einmitt í minni stærð.
Við tökum ekki eftir þessu og lítum á þetta eins og
sjálfsagðan hlut. En það er það klárlega ekki. Það er í
raun miklu líklegra að fá litla skápinn milli tveggja þétt-
vaxinna með of mikið af líkamshárum á stórfurðulegum
stöðum og að rúllan klárist
akkúrat hjá starfsmanni í
þjálfun sem þekkir ekki lár-
perur frá eggaldinum og þarf
að kalla til alla starfsmenn í
búðinni á meðan maður bíður
og er orðinn of seinn í allt hitt
sem maður á eftir að gera.
Þess vegna á maður að
fagna hverjum sigri og sætta
sig við að auðvitað hefur mað-
ur ekkert við lottóvinning að
gera. Honum er miklu betur
komið fyrir hjá barnmörgu
einstæðu móðurinni á lág-
markslaununum sem virðist
alltaf vera að vinna í lottóinu.
Ég ætla bara að halda upp á litlu sigrana. Morgna þeg-
ar maður þarf ekki að skafa, stuttar raðir, langar góðar
bækur og röð af grænum ljósum. Það nægir mér.
Litlu sigrarnir
’Ég reyni frekar að horfaá litlu sigrana, sem komaí dagsins önn. Eins og þegarmaður fær stóra skápinn í
sundinu. Eða þegar maður
heyrir sundlaugarvörðinn
taka æðiskast og þetta eru
ekki börnin mín. Eða þegar
allir á undan þér í röðinni
eru bara að kaupa eitthvert
smotterí og muna pin-
númerið sitt í fyrstu tilraun.
Á meðan ég man
Logi Bergmann
logi@mbl.is