Tölvumál - 01.01.2016, Qupperneq 12
12
Háskólinn í Reykjavík hefur verið í samstarfi við Google undanfarna sex
mánuði við að búa til kerfið Eyra sem safnar gögnum fyrir talgreiningu á
tungumálum sem hafa rýr málföng [1]. Talgreining gerir fólki kleift að tala
við tölvur sem hlusta á talað mál og breyta yfir í ritmál. Þannig er hægt
að stýra tölvum með því að tala við þær og þeir sem þekkja vel til hafa
tekið eftir að þetta er þegar að verða algengara og algengara fyrir erlend
tungumál. Til dæmis er hægt er að skrifa tölvupósta, leita á netinu og
biðja um upplýsingar með því að tala og sleppa þá að nota lyklaborð
eða snertiskjái. Árið 2011 safnaði Háskólinn í Reykjavík opnum gögnum
og þróaði Google íslenskan talgreini fyrir sín kerfi og gaf út árið 2012 [2].
Síðan þá hefur verið hægt að tala við tölvur á íslensku í gegnum Google
talgreininn.
Samstarfið er hluti af stærra verkefni sem Google stýrir og fjallar um
máltækni fyrir mörg tungumál [3]. Sérstakt markmið verkefnisins er að
þróa máltækni sem aðlagar sig að þeirri menningu og þeim tungumálum
sem fyrir eru í heiminum í stað þess að fólk þurfi að nota tæknina á
tungumáli sem það hefur ekki fullt vald á. Menningarlegur fjölbreytileiki
kemur glöggt fram í þeim fjölda tungumála sem talaður er í heiminum.
Af þeim tæplega 7000 tungumálum sem talin eru enn í virkri notkun eru
rétt rúm 300 töluð af fleiri en milljón manns og tæplega 950 töluð af fleiri
en hundrað þúsund [4] .
Það getur kostað mikla fyrirhöfn og peninga að útbúa máltæknilausnir fyrir
ný tungumál þar sem málföng eru af skornum skammti. Alþjóða fyrirtæki
eins og Google og Microsoft hafa einbeitt sér að því að búa til þessar
lausnir fyrir tungumál þar sem nóg er til af málföngum og þar sem
viðskiptalegar forsendur eru fyrir hendi. Til dæmis hefur Google framleitt
talgreina fyrir sín kerfi (e. Google Voice Search) fyrir u.þ.b. 50 tungumál.
Íslenska er þar á meðal þó hún sé ekki töluð af fleiri en milljón manns. Það
er því langt í land með þróun máltæknilausna ef ætlunin er að ná að
minnsta kosti þeim 300 tungumálum sem fleiri en milljón manns tala og
ennþá lengra ef við eigum að komast nálægt því að þróa lausnir fyrir ö.
Samstarfsverkefni Háskólans í Reykjavík og Google fjallar því um að
gera söfnun á talupptökum fyrir talgreiningu auðvelda og ódýra, en slík
söfnun er dýrasti og fyrirferðamesti þátturinn í gerð talgreina.
Hugbúnaðurinn sem sér um þessa söfnun var þróaður hjá Háskólanum
í Reykjavík og virkar þannig að netþjónn útdeilir setningalista í gegnum
vefviðmót og þeir lesnir upp af þátttakendum. Hugbúnaðurinn hlaut
nafnið Eyra (eyra.is) og er opinn og öllum aðgengilegur á Github (github.
com/Eyrais/Eyra ).
Hver upptaka er geymd í gagnagrunni á netþjóninum og tengd við
setninguna. Miðað er við að upplesturinn sé gerður á Android snjallsíma
en með þessari útfærslu er hægt að útvíkka söfnunina. 1 Málföng (e.
language resources) eru gögn sem notuð eru til að hanna og smíða
máltæknilausnir eins og stafsetningar og málfræðileiðréttingu, talgervil,
sjálfvirka þýðingu og talgreini. Til málfanga teljast t.d. textasöfn (e. text
corpora), framburðarlyklar (e. lexicon), talupptökur (e. speech recordings),
orðabækur og beygingarlýsingar yfir á önnur tæki og stýri kerfi. Gagnasafn
sem inniheldur margar yrðingar frá mörgum þátttak endum er svo hægt
að nota til að þjálfa talgreini en jafnframt þarf stórt texta safn fyrir
mállíkanagerð og framburðarorðabók til þess að ljúka slíku verki.
Eyra hugbúnaðurinn var prófaður í fyrsta sinn í maí síðastliðinn í borginni
Yogyakarta í Indónesíu. Söfnun á javönsku fór þá fram í samstarfi við
Google og háskólana Gadja Mada og Sanata Dharma þar í borg. Um
260 milljón manns búa í Indónesíu, opinbera tungumálið er bahasa
indónesíska, en um 85 milljón manns hafa samt javönsku sem
móðurmál. Í tækniheiminum á javanska hins vegar undir högg að sækja
þar sem mun algengara er að fólk sæki sér frétta og afþreyingarefni á
bahasa indónesísku og tölvusamskipti fara oftast fram á því tungumáli
líka. Þróun á máltækni fyrir javönsku er því mikilvægur liður í að styrkja
tungumálið og gera það gjaldgengt fyrir nútímanotkun.
Yfir 500 sjálfboðaliðar tóku þátt í söfnuninni og voru flestir þeirra
nemendur og starfsmenn háskólanna tveggja í Yogyakarta. Alls náði
söfnunin yfir 250.000 upptökur, hver upptaka er að meðaltali um sex
sekúndur og er því gagnagrunnurinn um það bil 450 klukkustundir í
heildina. Gæðaprófunum er nú lokið og er unnið í því að koma
gögnunum fyrir á vefsvæðinu www.openslr.org þar sem þau verða opin
og aðgengileg öllum, en sérstaklega þeim sem vilja þróa talgreiningu
fyrir javönsku.
EYRA – TALGREINING FYRIR
MÖRG TUNGUMÁL
Jón Guðnason lektor við tækni og verkfræðideild Háskólans í Reykjavík
Starfsmaður Google Supheakmungkol Sarin (fyrir miðri mynd) sýnir nemendum
í Gadja Mada háskóla hvernig á að safna talsýnum með Eyra hugbúnaðinum.
Nemendur við Gadja Mada háskóla skrá sig til þátttöku í gagnasöfnun fyrir
talgreiningu á javönsku.