Tölvumál - 01.01.2016, Blaðsíða 12

Tölvumál - 01.01.2016, Blaðsíða 12
12 Háskólinn í Reykjavík hefur verið í samstarfi við Google undanfarna sex mánuði við að búa til kerfið Eyra sem safnar gögnum fyrir talgreiningu á tungumálum sem hafa rýr málföng [1]. Talgreining gerir fólki kleift að tala við tölvur sem hlusta á talað mál og breyta yfir í ritmál. Þannig er hægt að stýra tölvum með því að tala við þær og þeir sem þekkja vel til hafa tekið eftir að þetta er þegar að verða algengara og algengara fyrir erlend tungumál. Til dæmis er hægt er að skrifa tölvupósta, leita á netinu og biðja um upplýsingar með því að tala og sleppa þá að nota lyklaborð eða snertiskjái. Árið 2011 safnaði Háskólinn í Reykjavík opnum gögnum og þróaði Google íslenskan talgreini fyrir sín kerfi og gaf út árið 2012 [2]. Síðan þá hefur verið hægt að tala við tölvur á íslensku í gegnum Google talgreininn. Samstarfið er hluti af stærra verkefni sem Google stýrir og fjallar um máltækni fyrir mörg tungumál [3]. Sérstakt markmið verkefnisins er að þróa máltækni sem aðlagar sig að þeirri menningu og þeim tungumálum sem fyrir eru í heiminum í stað þess að fólk þurfi að nota tæknina á tungumáli sem það hefur ekki fullt vald á. Menningarlegur fjölbreytileiki kemur glöggt fram í þeim fjölda tungumála sem talaður er í heiminum. Af þeim tæplega 7000 tungumálum sem talin eru enn í virkri notkun eru rétt rúm 300 töluð af fleiri en milljón manns og tæplega 950 töluð af fleiri en hundrað þúsund [4] . Það getur kostað mikla fyrirhöfn og peninga að útbúa máltæknilausnir fyrir ný tungumál þar sem málföng eru af skornum skammti. Alþjóða fyrirtæki eins og Google og Microsoft hafa einbeitt sér að því að búa til þessar lausnir fyrir tungumál þar sem nóg er til af málföngum og þar sem viðskiptalegar forsendur eru fyrir hendi. Til dæmis hefur Google framleitt talgreina fyrir sín kerfi (e. Google Voice Search) fyrir u.þ.b. 50 tungumál. Íslenska er þar á meðal þó hún sé ekki töluð af fleiri en milljón manns. Það er því langt í land með þróun máltæknilausna ef ætlunin er að ná að minnsta kosti þeim 300 tungumálum sem fleiri en milljón manns tala og ennþá lengra ef við eigum að komast nálægt því að þróa lausnir fyrir ö. Samstarfsverkefni Háskólans í Reykjavík og Google fjallar því um að gera söfnun á talupptökum fyrir talgreiningu auðvelda og ódýra, en slík söfnun er dýrasti og fyrirferðamesti þátturinn í gerð talgreina. Hugbúnaðurinn sem sér um þessa söfnun var þróaður hjá Háskólanum í Reykjavík og virkar þannig að netþjónn útdeilir setningalista í gegnum vefviðmót og þeir lesnir upp af þátttakendum. Hugbúnaðurinn hlaut nafnið Eyra (eyra.is) og er opinn og öllum aðgengilegur á Github (github. com/Eyrais/Eyra ). Hver upptaka er geymd í gagnagrunni á netþjóninum og tengd við setninguna. Miðað er við að upplesturinn sé gerður á Android snjallsíma en með þessari útfærslu er hægt að útvíkka söfnunina. 1 Málföng (e. language resources) eru gögn sem notuð eru til að hanna og smíða máltæknilausnir eins og stafsetningar og málfræðileiðréttingu, talgervil, sjálfvirka þýðingu og talgreini. Til málfanga teljast t.d. textasöfn (e. text corpora), framburðarlyklar (e. lexicon), talupptökur (e. speech recordings), orðabækur og beygingarlýsingar yfir á önnur tæki og stýri kerfi. Gagnasafn sem inniheldur margar yrðingar frá mörgum þátttak endum er svo hægt að nota til að þjálfa talgreini en jafnframt þarf stórt texta safn fyrir mállíkanagerð og framburðarorðabók til þess að ljúka slíku verki. Eyra hugbúnaðurinn var prófaður í fyrsta sinn í maí síðastliðinn í borginni Yogyakarta í Indónesíu. Söfnun á javönsku fór þá fram í samstarfi við Google og háskólana Gadja Mada og Sanata Dharma þar í borg. Um 260 milljón manns búa í Indónesíu, opinbera tungumálið er bahasa indónesíska, en um 85 milljón manns hafa samt javönsku sem móðurmál. Í tækniheiminum á javanska hins vegar undir högg að sækja þar sem mun algengara er að fólk sæki sér frétta­ og afþreyingarefni á bahasa indónesísku og tölvusamskipti fara oftast fram á því tungumáli líka. Þróun á máltækni fyrir javönsku er því mikilvægur liður í að styrkja tungumálið og gera það gjaldgengt fyrir nútímanotkun. Yfir 500 sjálfboðaliðar tóku þátt í söfnuninni og voru flestir þeirra nemendur og starfsmenn háskólanna tveggja í Yogyakarta. Alls náði söfnunin yfir 250.000 upptökur, hver upptaka er að meðaltali um sex sekúndur og er því gagnagrunnurinn um það bil 450 klukkustundir í heildina. Gæðaprófunum er nú lokið og er unnið í því að koma gögnunum fyrir á vefsvæðinu www.openslr.org þar sem þau verða opin og aðgengileg öllum, en sérstaklega þeim sem vilja þróa talgreiningu fyrir javönsku. EYRA – TALGREINING FYRIR MÖRG TUNGUMÁL Jón Guðnason lektor við tækni­ og verkfræðideild Háskólans í Reykjavík Starfsmaður Google Supheakmungkol Sarin (fyrir miðri mynd) sýnir nemendum í Gadja Mada háskóla hvernig á að safna talsýnum með Eyra hugbúnaðinum. Nemendur við Gadja Mada háskóla skrá sig til þátttöku í gagnasöfnun fyrir talgreiningu á javönsku.

x

Tölvumál

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Tölvumál
https://timarit.is/publication/239

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.