Tölvumál - 01.10.2013, Síða 16
16
Í þessari grein verður fjallað um þau rannsóknarverkefni sem ég hef
fengist við og snúa að máltækni og talmerkjafræði. Skýrðar verða
lauslega út ástæður þess að ég valdi mér þessi viðfangsefni og af hverju
mér finnst þau vera mikilvæg. Einnig verður lýst hvað er að gerast á
þessu sviði á Íslandi og hvað mér finnst þurfi að gerast í þessum málum
til þess að við sem búum á þessu landi og viljum nota íslensku, getum
átt sömu möguleika og tækifæri og aðrir sem búa á stærri málsvæðum.
Ég tók snemma þá stefnu að beita sérfræðiþekkingu minni í merkjafræði
og mynsturgreiningu á verkefni máltækninnar. Þessi stefna þróaðist
með mér um það leiti sem ég vann að meistaraverkefni í rafmagns- og
tölvuverkfræði í Háskóla Íslands. Verkefnið snérist um að líkanagera
raddað talmerki með tauganetum en slík greining er sérstaklega
gagnleg í fjarskiptum. Líkanagering á tali (oftar með línulegum spásíum
frekar en tauganetum) myndar kjarnann í þeirri kóðun á tali sem notuð
er í farsímafjarskiptum. Með þessu er hægt að minnka gagnamagnið
sem senda þarf yfir fjarskiptarásina umtalsvert. Á þessum tíma kynntist
ég þeirri framtíðarsýn að einhvern tímann gæti fólk talast við á
mismunandi tungumálum með sjálfvirkum þýðingarvélum. Þannig væri
til dæmis hægt að taka upp símtólið og tala íslensku og heyra íslensku
en viðmælandinn á hinum endanum myndi heyra þýsku og tala þýsku.
Sannfæring mín varð sú að tækni sem bætir samskipti milli fólks og
gerir samfélögum heimsins kleift að skilja hvert annað betur, sé af hinu
góða.
Máltækninni hefur fleygt fram síðan þá og er hægt að sjá nokkuð
marktækan árangur. Talgervlar eru orðnir mjög raunverulegir og bestu
talgreinar nútímans eru það nákvæmir að þeir eru hluti af vöru- og
viðskiptaþróun helstu tæknifyrirtækja heimsins. Apple kom fram með
máltæknibúnaðinn Siri sem gerir fólki kleift að eiga samskipti við iPhone
snjallsímann með talmáli. Siri getur hlustað á fyrirspurnir með talgreini,
útvegað ýmiskonar upplýsingar og komið þeim til skila í gegnum
talgervil. Google hefur einnig þróað sambærilegt kerfi sem heitir Google
Voice Search sem leyfir notandanum að segja Google leitina við
snjallsímann í stað þess að slá hana inn. Máltæknin er mikilvæg viðbót
við snjallsímana sem geta ekki boðið upp á jafn þjált viðmót og stærri
tölvur gera með lyklaborði, mús og stórum skjá.
Máltækni er svið sem nær yfir hverskonar tækni sem notuð er til að
greina og meðhöndla tungumálið og því er hægt að skipta máltækninni
upp í tækni sem fæst við talmál og ritmál. Talgreinir er tækni sem
umbreytir talmáli í ritmál og talgervill umbreytir ritmáli í talmál. Dæmi um
máltækni sem fjallar bara um ritmál er sjálfvirk textagreining sem er
mikið notuð af fyrirtækjum sem vilja komast að því hvort og þá hvernig
verið er að fjalla um það eða vörur þess á netinu. Clara er gott dæmi um
fyrirtæki sem veitir þjónustu með þessari tækni en Google og Facebook
nota sjálfvirka textagreiningu til þess að tengja auglýsendur betur við
sína markhópa. Annað gott dæmi um ritmálstækni er sjálfvirk þýðing
milli tungumála og er þekktasta dæmið Google Translate.
Doktorsverkefnið mitt fjallaði um að líkanagera raddmyndun með það
fyrir augum að geta greint hver er að tala [1]. Helsti árangur verkefnisins
var aðferð sem getur sagt til um á hvaða augnabliki raddböndin lokast í
rödduðu tali. Þetta gerist til dæmis þegar við segjum sérhljóða, en þá
sveiflast raddböndin og mynda þá tíðni sem við tölum á (talandann).
Sveiflan er ekki jöfn heldur smellast raddböndin saman og lokast á einu
augnabliki og mynda ósamfellu í loftflæðinu. Þessi ósamfella er svo
mótuð af raddholinu en lögun þess er einstök fyrir þann sérhljóða sem
verið er að segja. Það að geta ákvarðað þetta augnablik í
raddbandasveiflunni kemur að góðum notum í mörgum undirsviðum
talmerkjafræðinnar. Þetta hefur aukið gæði í talkóðun og ýmsar tegundir
talgervla hafa nýtt sér þessa vitneskju. Ég hannaði aðferð til að draga út
einkenni úr raddmerkinu sem geta auðkennt hver er að tala. Þau
einkenni sem ég hannaði bættu nákvæmni í raddgreiningu umtalsvert.
Síðan ég hóf störf við Háskólann í Reykjavík haustið 2009 hef ég haldið
áfram að þróa þær talmerkjafræðiaðferðirnar sem hannaðar voru í
doktorsnáminu. Ég hef skoðað hvort hægt sé að bæta talgreiningu á
svipaðan hátt en að undanförnu hefur athyglin beinst að því að skoða
möguleika á að greina tilfinningar, stress og þunglyndi í rödd, í samstarfi
við dr. Kamillu Rún Jóhannsdóttur, lektor í sálfræði við Háskólann í
Reykjavík. Rannsóknirnar byggjast á þeirri tilgátu að tilfinningaástand
hafi áhrif á samskipti heilans við talfærin og að þetta megi greina í rödd
viðkomandi. Þessar rannsóknir eru ennþá á frumstigi en niðurstöður
kollega okkar í Bandaríkjunum sína til dæmis að hægt sé að greina
Parkinsons veiki mun fyrr en áður með raddgreiningu [2]. Einnig sýna
niðurstöður forathugana fram á mikla fylgni ýmissa einkenna í
raddmerkinu við þunglyndi og kvíða.
Talgreining fyrir íslensku varð að veruleika í ágúst 2012 þegar Google
bætti 13 tungumálum við Google Voice Search kerfið sitt [3]. Nýju
tungumálin voru baskneska, búlgarska, evrópsk portúgalska, finnska,
gallíska, katalónska, norska, rúmenska, serbnenska, slóvenska,
sænska, ungverska og íslenska. Ástæðuna fyrir því að íslenskan var eitt
þessara tungumál má rekja til þess að ég hafði kynnst dr. Trausta
Kristjánssyni þegar ég vann við rannsóknir í Columbia háskóla árið
2009. Trausti, sem var starfsmaður hjá Google í New York á þessum
tíma, hafði lengi hvatt til þess innan fyrirtækisins að íslensku yrði bætt
við sem tungumáli í kerfinu, oft við litlar undirtektir. Vorið 2011 ákvað
hópur um alþjóðavæðingu (i18n) innan Google undir forustu Pedro
Moreno að láta á þetta reyna. Til þess að framleiða talgreini þarf tækni-
innviði annarsvegar og gögn hinsvegar. Þar sem Google hafði þá þegar
framleitt talgreina fyrir fjölmennari málsvæði skorti þá ekki tækni né
þekkingu til þess að búa til talgreini fyrir íslensku heldur þurftu þeir
rannSóknir og
Tækniþróun á
raddmerkjum og
málTækni
Jón Guðnason, lektor tækni- og verkfræðideild Háskólans í Reykjavík