Tölvumál - 01.01.2019, Side 33

Tölvumál - 01.01.2019, Side 33
33 Máltækni er rannsóknar- og þróunarsvið sem hefur það að markmiði að smíða kerfi sem geta unnið með og skilið náttúruleg tungumál og stuðlað að notkun þeirra í samskiptum manns og tölvu. Máltækni hefur verið í þróun í langan tíma en náði ekki víðtækri athygli almennings fyrr en á allra síðustu misserum með tilkomu ýmissa tækja og lausna frá stórfyrirtækjum á borð við Amazon, Apple, Facebook, Google og Microsoft. Haustið 2017 settu íslensk stjórnvöld á laggirnar fimm ára máltækniáætlun með það að markmiði að leggja grunn að því að tölvur geti unnið með og skilið íslensku. Vinna við kjarnaverkefni máltækniáætlunarinnar hófst loksins 1. október 2019 eftir langt undirbúningsferli. Kjarnaverkefni áætlunarinnar eru fimm (talgreining, talgerving, vélþýðingar, málrýni og málföng) og verða þau unnin af SÍM-hópnum (Samstarf um íslenska máltækni), sem samanstendur af háskólum, stofnunum og fyrirtækjum. Sjálfseignarfélagið Almannarómur hefur yfirumsjón með verkefnunum fyrir hönd Mennta- og menningamálaráðuneytisins. Þess ber að geta að máltækniáætlunin hefur þann sveigjanleika að hægt er að sækja um styrk fyrir verkefni sem falla utan kjarnaverkefnanna í “Markáætlun í tungu og tækni” sem Rannís hefur umsjón með. Háskólinn í Reykjavík (HR) er þátttakandi í SÍM og það kemur í hlut HR að vinna aðallega við rannsóknir og þróun á sviði talgreiningar, talgervingar og vélþýðinga, ásamt því að aðstoða við skipulagningu á kjarnaverkefnunum í heild sinni. Í þessari grein förum við stuttlega yfir þá tæknilegu þætti sem HR sér um. TALGREINING Talgreining gengur út á að breyta talmáli í ritmál og sem slíkt er það nokkuð vel skilgreint svið. Með talgreiningu getur hugbúnaður fengið upplýsingar frá notanda með töluðu máli. Tungumál er margbrotið fyrirbæri og það fer mjög mikið eftir aðstæðum og inntaki hvernig talgreini skuli beitt og hvaða árangri er hægt að ætlast til. Talgreining virkar til dæmis nokkuð vel við að rita ræður Alþingismanna upp sjálfvirkt. Það sem hjálpar til er að talgreiningin þarf ekki að gerast í rauntíma, ekki er mikið um bakgrunnshljóð í upptökunum og talmálið yfir það heila nokkuð einsleitt (þó svo að inntak talmálsins geti verið innihaldsríkt og þannig krefjandi). Samanborið við talgreiningu á samtali tveggja eða fleiri er talgreining á Alþingisræðum viðráðanleg. Þróun á talgreinum krefst þess að mikið magn samhliða talupptaka og textagagna sé til reiðu og eru þær vitvélar sem fyrir valinu verða þjálfaðar á þeim gögnum. Það er því mikilvægt að hafa slík gagnasöfn aðgengileg og opin ef þróun á talgreinum á að verða almenn og komast í almenna notkun. Markmiðið í máltækniáætluninni er að sjá til þess að næg gögn séu fyrir hendi til að þjálfa talgreini fyrir stuttar setningar, útvarps- og sjónvarpsefni, fyrirlestra og samræður og endurspegla verkþættir áætlunarinnar þessi markmið vel. Ennfremur munum við þróa opnar forskriftir fyrir talgreiningu sem auðvelda frekari hugbúnaðarþróun á máltækni fyrir íslensku hjá fyrirtækjum. Forskriftir verða þess eðlis að hægt verður að setja upp þróunarumhverfi á auðveldan hátt með þeim gögnum sem safnað hefur verið og með opnum hugbúnaði sem venjulega er notaður í talgreiningu. Þá ættu þeir sem vilja þróa talgreiningu í viðskiptalegum- eða rannsóknartilgangi að geta hafist handa án þess að þurfa að safna gögnum eða stilla af hugbúnað sérstaklega fyrir íslensku. TALGERVING Talgerving felur í sér að breyta ritmáli í talmál og er því andstæðan við talgreiningu. Með talgervingu getur hugbúnaður gefið frá sér upplýsingar á töluðu máli. Talgerving er einnig nokkuð margbrotin tækni en það er mjög háð viðfangsefni hvaða aðferð er best að nota við útfærslu á þessari tækni. Til dæmis hefur talgervill sem býr til upplestur á fyrirfram skilgreindum texta mikinn tíma til að ljúka við framleiðsluna á hljóðskránni sem kemur út. Aftur á móti þarf viðmót sem stendur í rauntímasamræðu við notanda að geta spilað raddfrálagið á mjög skömmum tíma. Mikið magn af samhliða talupptökum og texta þarf að vera til staðar til þess að útfæra góðan talgervil. Sú tækni sem er notuð mjög mikið í dag krefst þess að hafa nokkuð mikið magn af gögnum frá einum upplesara. Þessi gögn eru bútuð sundur í smáar hljóðeiningar sem eru síðan settar saman þegar ný setning er búin til. Þessi tækni nefnist einingarval (e. unit selection) og hefur í för með sér að sú rödd sem búin er til verður næstum eins og rödd þess sem les upp upprunalega textann. Markmiðið í áætluninni er að taka upp átta raddir til þess að smíða einingavalsraddir. Ný og spennandi tækni sem er farin að ná svipuðum gæðum og einingarvalstæknin er byggð á líkanagerð og tauganetum og nefnist sú tækni stikuð talgerving (e. parametric speech synthesis). Þar er hægt að blanda saman upptökum frá mörgum upplesurum og búa til nýjar raddir. Í máltækniáætluninni er markmiðið að taka upp gögn frá 20 upplesurum til þess að þróa þessa tækni. Verkefnið mun einnig ganga frá forskriftum fyrir talgervingu þannig að þeir sem vilja útfæra tæknina geti gert það á sem auðveldastan hátt. Í verkefninu verður einnig unnin ákveðin rannsóknarvinna þannig að hægt verði að aðlaga núverandi tækni að íslensku máli, stafsetningu og talanda. VÉLÞÝÐINGAR Í vélþýðingum er hugbúnaður notaður til að þýða texta úr einu tungumáli, frummáli, yfir á annað tungumál, markmál. Vélþýðingar eru eitt elsta rannsóknarsvið innan máltækni og rekja má rannsóknir á sviðinu allt aftur til um 1950. Ýmsum aðferðum hefur verið beitt við þróun þýðingarkerfa í gegnum árin en í máltækniáætluninni stendur til að beita aðferðum sem byggja á vélrænu námi (e. machine learning). Þessar aðferðir þurfa á samhliða málheildum (e. parallel corpora) að halda, þ.e. textum á frum- málinu og sömu (þýddum) textum á markmálinu. Vélræna námið lærir líkan með sjálfvirkri greiningu á tiltekinni samhliða málheild og líkanið er síðan notað til að þýða nýjan texta. Í þessu vélþýðingarverkefni verður hugbúnaður þróaður sem getur þýtt íslenskan texta yfir á ensku og öfugt. Tiltölulega fáar samhliða málheildir MÁLTÆKNIÁÆTLUN Í HÁSKÓLANUM Í REYKJAVÍK Hrafn Loftsson og Jón Guðnason, dósentar við Háskólann í Reykjavík

x

Tölvumál

Direkte link

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Tölvumál
https://timarit.is/publication/239

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.