Tölvumál - 01.01.2019, Blaðsíða 33
33
Máltækni er rannsóknar- og þróunarsvið sem hefur það að markmiði að
smíða kerfi sem geta unnið með og skilið náttúruleg tungumál og stuðlað
að notkun þeirra í samskiptum manns og tölvu. Máltækni hefur verið í
þróun í langan tíma en náði ekki víðtækri athygli almennings fyrr en á
allra síðustu misserum með tilkomu ýmissa tækja og lausna frá
stórfyrirtækjum á borð við Amazon, Apple, Facebook, Google og
Microsoft.
Haustið 2017 settu íslensk stjórnvöld á laggirnar fimm ára máltækniáætlun
með það að markmiði að leggja grunn að því að tölvur geti unnið með
og skilið íslensku. Vinna við kjarnaverkefni máltækniáætlunarinnar hófst
loksins 1. október 2019 eftir langt undirbúningsferli. Kjarnaverkefni
áætlunarinnar eru fimm (talgreining, talgerving, vélþýðingar, málrýni og
málföng) og verða þau unnin af SÍM-hópnum (Samstarf um íslenska
máltækni), sem samanstendur af háskólum, stofnunum og fyrirtækjum.
Sjálfseignarfélagið Almannarómur hefur yfirumsjón með verkefnunum
fyrir hönd Mennta- og menningamálaráðuneytisins. Þess ber að geta að
máltækniáætlunin hefur þann sveigjanleika að hægt er að sækja um styrk
fyrir verkefni sem falla utan kjarnaverkefnanna í “Markáætlun í tungu og
tækni” sem Rannís hefur umsjón með.
Háskólinn í Reykjavík (HR) er þátttakandi í SÍM og það kemur í hlut HR
að vinna aðallega við rannsóknir og þróun á sviði talgreiningar, talgervingar
og vélþýðinga, ásamt því að aðstoða við skipulagningu á kjarnaverkefnunum
í heild sinni. Í þessari grein förum við stuttlega yfir þá tæknilegu þætti
sem HR sér um.
TALGREINING
Talgreining gengur út á að breyta talmáli í ritmál og sem slíkt er það
nokkuð vel skilgreint svið. Með talgreiningu getur hugbúnaður fengið
upplýsingar frá notanda með töluðu máli. Tungumál er margbrotið fyrirbæri
og það fer mjög mikið eftir aðstæðum og inntaki hvernig talgreini skuli
beitt og hvaða árangri er hægt að ætlast til. Talgreining virkar til dæmis
nokkuð vel við að rita ræður Alþingismanna upp sjálfvirkt. Það sem hjálpar
til er að talgreiningin þarf ekki að gerast í rauntíma, ekki er mikið um
bakgrunnshljóð í upptökunum og talmálið yfir það heila nokkuð einsleitt
(þó svo að inntak talmálsins geti verið innihaldsríkt og þannig krefjandi).
Samanborið við talgreiningu á samtali tveggja eða fleiri er talgreining á
Alþingisræðum viðráðanleg.
Þróun á talgreinum krefst þess að mikið magn samhliða talupptaka og
textagagna sé til reiðu og eru þær vitvélar sem fyrir valinu verða þjálfaðar
á þeim gögnum. Það er því mikilvægt að hafa slík gagnasöfn aðgengileg
og opin ef þróun á talgreinum á að verða almenn og komast í almenna
notkun. Markmiðið í máltækniáætluninni er að sjá til þess að næg gögn
séu fyrir hendi til að þjálfa talgreini fyrir stuttar setningar, útvarps- og
sjónvarpsefni, fyrirlestra og samræður og endurspegla verkþættir
áætlunarinnar þessi markmið vel.
Ennfremur munum við þróa opnar forskriftir fyrir talgreiningu sem auðvelda
frekari hugbúnaðarþróun á máltækni fyrir íslensku hjá fyrirtækjum.
Forskriftir verða þess eðlis að hægt verður að setja upp þróunarumhverfi
á auðveldan hátt með þeim gögnum sem safnað hefur verið og með
opnum hugbúnaði sem venjulega er notaður í talgreiningu. Þá ættu þeir
sem vilja þróa talgreiningu í viðskiptalegum- eða rannsóknartilgangi að
geta hafist handa án þess að þurfa að safna gögnum eða stilla af
hugbúnað sérstaklega fyrir íslensku.
TALGERVING
Talgerving felur í sér að breyta ritmáli í talmál og er því andstæðan við
talgreiningu. Með talgervingu getur hugbúnaður gefið frá sér upplýsingar
á töluðu máli. Talgerving er einnig nokkuð margbrotin tækni en það er
mjög háð viðfangsefni hvaða aðferð er best að nota við útfærslu á þessari
tækni. Til dæmis hefur talgervill sem býr til upplestur á fyrirfram
skilgreindum texta mikinn tíma til að ljúka við framleiðsluna á hljóðskránni
sem kemur út. Aftur á móti þarf viðmót sem stendur í rauntímasamræðu
við notanda að geta spilað raddfrálagið á mjög skömmum tíma.
Mikið magn af samhliða talupptökum og texta þarf að vera til staðar til
þess að útfæra góðan talgervil. Sú tækni sem er notuð mjög mikið í dag
krefst þess að hafa nokkuð mikið magn af gögnum frá einum upplesara.
Þessi gögn eru bútuð sundur í smáar hljóðeiningar sem eru síðan settar
saman þegar ný setning er búin til. Þessi tækni nefnist einingarval (e. unit
selection) og hefur í för með sér að sú rödd sem búin er til verður næstum
eins og rödd þess sem les upp upprunalega textann. Markmiðið í
áætluninni er að taka upp átta raddir til þess að smíða einingavalsraddir.
Ný og spennandi tækni sem er farin að ná svipuðum gæðum og
einingarvalstæknin er byggð á líkanagerð og tauganetum og nefnist sú
tækni stikuð talgerving (e. parametric speech synthesis). Þar er hægt að
blanda saman upptökum frá mörgum upplesurum og búa til nýjar raddir.
Í máltækniáætluninni er markmiðið að taka upp gögn frá 20 upplesurum
til þess að þróa þessa tækni.
Verkefnið mun einnig ganga frá forskriftum fyrir talgervingu þannig að
þeir sem vilja útfæra tæknina geti gert það á sem auðveldastan hátt. Í
verkefninu verður einnig unnin ákveðin rannsóknarvinna þannig að hægt
verði að aðlaga núverandi tækni að íslensku máli, stafsetningu og talanda.
VÉLÞÝÐINGAR
Í vélþýðingum er hugbúnaður notaður til að þýða texta úr einu tungumáli,
frummáli, yfir á annað tungumál, markmál. Vélþýðingar eru eitt elsta
rannsóknarsvið innan máltækni og rekja má rannsóknir á sviðinu allt aftur
til um 1950. Ýmsum aðferðum hefur verið beitt við þróun þýðingarkerfa
í gegnum árin en í máltækniáætluninni stendur til að beita aðferðum sem
byggja á vélrænu námi (e. machine learning). Þessar aðferðir þurfa á
samhliða málheildum (e. parallel corpora) að halda, þ.e. textum á frum-
málinu og sömu (þýddum) textum á markmálinu. Vélræna námið lærir
líkan með sjálfvirkri greiningu á tiltekinni samhliða málheild og líkanið er
síðan notað til að þýða nýjan texta.
Í þessu vélþýðingarverkefni verður hugbúnaður þróaður sem getur þýtt
íslenskan texta yfir á ensku og öfugt. Tiltölulega fáar samhliða málheildir
MÁLTÆKNIÁÆTLUN
Í HÁSKÓLANUM Í
REYKJAVÍK
Hrafn Loftsson og Jón Guðnason, dósentar við Háskólann í
Reykjavík