Tölvumál - 01.10.2013, Side 17
17
talgögn. Trausti og Pedro leituðu til mín og settum við talgagna-
söfnunarverkefni af stað sem var kallað Almannarómur. Nemendur og
starfsmenn Háskólans í Reykjavík og Máltækniseturs stóðu fyrir söfnun
talgagnanna haustið 2011 og náðist að safna yfir 120.000 yrðingum frá
um það bil 550 einstaklingum. Google gat einnig nýtt sér íslenska
málheild og textasöfn sem til voru hjá Árnastofnun og Háskóla Íslands
en dr. Eiríkur Rögnvaldsson prófessor hjá Háskóla Íslands, Sigrún
Helgadóttir sérfræðingur hjá Árnastofnun og Hrafn Loftsson dósent við
Háskólann í Reykjavík hafa staðið að söfnun og mörkun málheildar
undanfarinn ár [4]. Söfnuninni lauk snemma árs 2012 og síðla sumars
gaf Google út framangreinda yfirlýsingu um að íslensk talgreining væri
virk í kerfum þeirra.
almannarómur
Stofnun sjálfseignafélags um máltækni er nú í burðarliðnum. Félagið
nefnist Almannarómur og er ætlunin að það sjái til þess að nauðsynleg
máltæknitól verði þróuð og geti nýst íslenskum iðnaði og almenningi.
Hægt er að gerast stofnaðili að félaginu fyrir 150-450 þúsund krónur og
er ætlunin að geta rekið félagið í tvö ár fyrir stofnféð Áætlað er að fyrsta
verkefni félagsins verði þróun á talgreini sem verði aðgengilegur fyrir
fyrirtæki og almenning. Ætlunin er að opinberir styrkir og fjárframlög frá
félagasamtökum og fyrirtækjum í landinu kosti verkefnið, en áætlað er
að það muni kosta um 100 milljónir króna. Almannarómur mun sjá um
að reka og viðhalda þessari tækni fyrir tekjur sem það hefur af þjónustu
og ráðgjöf. Stjórn Almannaróms mun útbúa lista af máltæknitólum og
sjá til þess að þau verði og útfærð, þróuð og þeim viðhaldið þannig að
almenningur og fyrirtæki njóti sem mest góðs af því starfi.
Þau sem starfa með mér í undirbúningshópnum eru dr. Eiríkur
Rögnvaldsson, prófessor við Háskóla Íslands, Garðar Guðgeirsson,
framkvæmdastjóri hjá TM, dr. Hrafn Loftsson, dósent við Háskólann í
Reykjavík, Kristinn Halldór Einarsson, formaður Blindrafélagsins,
Sigríður Margrét Oddsdóttir, forstjóri Já, Sigrún Helgadóttir, sérfræðingur
hjá Árnastofnun og dr. Trausti Kristjánsson, athafnamaður. Hvatningin
sem við höfum í þessari vinnu er sú sýn að samskipti milli fólks og milli
fólks og tölva/kerfa velti á góðri og velútfærðri máltækni og að íslenskan
verði hluti af þeirri alþjóðaþróun sem við munum sjá á komandi árum.
Þetta er ekki bara spurning um málvernd, heldur þau tækifæri sem
íslenskur almenningur og atvinnulíf mun hafa ef það getur nýtt sér þessa
tækni. Sjálfboðaliðsstarf er ágætt í einstök takmörkuð verkefni og er
saga máltækninnar á Íslandi vörðuð af ósérhlífni og atorku þeirra sem
hafa tekið þátt í slíkum verkefnum. Nú er kominn tími til þess að þróun
á þessari tækni verði í gegnum félag sem hefur þann eina tilgang að
sinna máltækni. Félagið Almannarómur mun sjá til þess að þau tækifæri
sem máltæknin býður uppá verði einnig til staða hér og þar af leiðandi
félag sem stuðlar að því að viðhalda íslenskri tungu í heimi tækninnar.
Viðfangsefni sem spretta upp af rannsóknum á tungumálinu eru
margskonar og kalla fram margar rannsóknarspurningar og ýmsa
möguleika til tækniþróunar. Víðtækt samstarf þverfaglegrar
sérfræðiþekkingar og fólks sem starfar á mismunandi vettvangi er því
nauðsynlegt. Opinberar stofnanir, háskólar, félagasamtök og viðskiptalíf
þurfa að starfa vel saman til þess koma góðum verkefnum af stað en
árangurinn mun skila sér í betra og upplýstara samfélagi.
Heimildir:
[1] Jón Guðnason. „Voice source cepstrum processing for speaker
identification.“ Ph.D. Thesis. Imperial College London. 2007. http://
staff.ru.is/jg/pages/papers/jgudnason2007_PhD.pdf
[2] A. Tsanas, M.A. Little, P.E. McSharry, J. Spielman, L.O. Ramig.
„Novel speech signal processing algorithms for high-accuracy
classification of Parkinson’s disease“. IEEE Transactions on
Biomedical Engineering, 59(5):1264-1271. 2012
http://www.maxlittle.net/publications/TBME-00887-2011.pdf
[3] Bertrand Damiba. „Voice Search arrives in 13 new languages“.
Google: Official Blog. August 16, 2012. http://googleblog.blogspot.
co.uk/2012/08/voice-search-arrives-in-13-new-languages.html
[4] Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2013. Language
Resources for Icelandic. De Smedt et al. (ritstj.): Proceedings of the
Workshop on Nordic Language Research Infrastructure at NODALIDA
2013, s. 60-76. NEALT Proceedings Series 20. Linköping Electronic
Conference Proceedings, Linköping.
http://www.ep.liu.se/ecp/089/ecp13089.pdf
uTmeSSan 2014 í Hörpu
Föstudaginn 7. febrúar:
ráðstefna og sýning fyrir tölvufólk
Laugardaginn 8. febrúar:
sýning og fræðsla fyrir alla
Takið dagana STraX frá!
Tilgangur UTmessunnar er að vekja athygli á mikilvægi upplýsingatækninnar og áhrifum
hennar á einstaklinga, fyrirtæki og íslenskt samfélag.
Markmiðið er að sjá marktæka fjölgun nemenda sem velja tæknigreinar í háskólum landsins.
Einnig viljum vekja áhuga almennings á upplýsingatækni og mikilvægi hennar á öllum sviðum
daglegs lífs.
Fylgstu með á UTmessan.is - Facebook UTmessan – Twitter UTmessan