Tölvumál - 01.10.2013, Blaðsíða 16

Tölvumál - 01.10.2013, Blaðsíða 16
16 Í þessari grein verður fjallað um þau rannsóknarverkefni sem ég hef fengist við og snúa að máltækni og talmerkjafræði. Skýrðar verða lauslega út ástæður þess að ég valdi mér þessi viðfangsefni og af hverju mér finnst þau vera mikilvæg. Einnig verður lýst hvað er að gerast á þessu sviði á Íslandi og hvað mér finnst þurfi að gerast í þessum málum til þess að við sem búum á þessu landi og viljum nota íslensku, getum átt sömu möguleika og tækifæri og aðrir sem búa á stærri málsvæðum. Ég tók snemma þá stefnu að beita sérfræðiþekkingu minni í merkjafræði og mynsturgreiningu á verkefni máltækninnar. Þessi stefna þróaðist með mér um það leiti sem ég vann að meistaraverkefni í rafmagns- og tölvuverkfræði í Háskóla Íslands. Verkefnið snérist um að líkanagera raddað talmerki með tauganetum en slík greining er sérstaklega gagnleg í fjarskiptum. Líkanagering á tali (oftar með línulegum spásíum frekar en tauganetum) myndar kjarnann í þeirri kóðun á tali sem notuð er í farsímafjarskiptum. Með þessu er hægt að minnka gagnamagnið sem senda þarf yfir fjarskiptarásina umtalsvert. Á þessum tíma kynntist ég þeirri framtíðarsýn að einhvern tímann gæti fólk talast við á mismunandi tungumálum með sjálfvirkum þýðingarvélum. Þannig væri til dæmis hægt að taka upp símtólið og tala íslensku og heyra íslensku en viðmælandinn á hinum endanum myndi heyra þýsku og tala þýsku. Sannfæring mín varð sú að tækni sem bætir samskipti milli fólks og gerir samfélögum heimsins kleift að skilja hvert annað betur, sé af hinu góða. Máltækninni hefur fleygt fram síðan þá og er hægt að sjá nokkuð marktækan árangur. Talgervlar eru orðnir mjög raunverulegir og bestu talgreinar nútímans eru það nákvæmir að þeir eru hluti af vöru- og viðskiptaþróun helstu tæknifyrirtækja heimsins. Apple kom fram með máltæknibúnaðinn Siri sem gerir fólki kleift að eiga samskipti við iPhone snjallsímann með talmáli. Siri getur hlustað á fyrirspurnir með talgreini, útvegað ýmiskonar upplýsingar og komið þeim til skila í gegnum talgervil. Google hefur einnig þróað sambærilegt kerfi sem heitir Google Voice Search sem leyfir notandanum að segja Google leitina við snjallsímann í stað þess að slá hana inn. Máltæknin er mikilvæg viðbót við snjallsímana sem geta ekki boðið upp á jafn þjált viðmót og stærri tölvur gera með lyklaborði, mús og stórum skjá. Máltækni er svið sem nær yfir hverskonar tækni sem notuð er til að greina og meðhöndla tungumálið og því er hægt að skipta máltækninni upp í tækni sem fæst við talmál og ritmál. Talgreinir er tækni sem umbreytir talmáli í ritmál og talgervill umbreytir ritmáli í talmál. Dæmi um máltækni sem fjallar bara um ritmál er sjálfvirk textagreining sem er mikið notuð af fyrirtækjum sem vilja komast að því hvort og þá hvernig verið er að fjalla um það eða vörur þess á netinu. Clara er gott dæmi um fyrirtæki sem veitir þjónustu með þessari tækni en Google og Facebook nota sjálfvirka textagreiningu til þess að tengja auglýsendur betur við sína markhópa. Annað gott dæmi um ritmálstækni er sjálfvirk þýðing milli tungumála og er þekktasta dæmið Google Translate. Doktorsverkefnið mitt fjallaði um að líkanagera raddmyndun með það fyrir augum að geta greint hver er að tala [1]. Helsti árangur verkefnisins var aðferð sem getur sagt til um á hvaða augnabliki raddböndin lokast í rödduðu tali. Þetta gerist til dæmis þegar við segjum sérhljóða, en þá sveiflast raddböndin og mynda þá tíðni sem við tölum á (talandann). Sveiflan er ekki jöfn heldur smellast raddböndin saman og lokast á einu augnabliki og mynda ósamfellu í loftflæðinu. Þessi ósamfella er svo mótuð af raddholinu en lögun þess er einstök fyrir þann sérhljóða sem verið er að segja. Það að geta ákvarðað þetta augnablik í raddbandasveiflunni kemur að góðum notum í mörgum undirsviðum talmerkjafræðinnar. Þetta hefur aukið gæði í talkóðun og ýmsar tegundir talgervla hafa nýtt sér þessa vitneskju. Ég hannaði aðferð til að draga út einkenni úr raddmerkinu sem geta auðkennt hver er að tala. Þau einkenni sem ég hannaði bættu nákvæmni í raddgreiningu umtalsvert. Síðan ég hóf störf við Háskólann í Reykjavík haustið 2009 hef ég haldið áfram að þróa þær talmerkjafræðiaðferðirnar sem hannaðar voru í doktorsnáminu. Ég hef skoðað hvort hægt sé að bæta talgreiningu á svipaðan hátt en að undanförnu hefur athyglin beinst að því að skoða möguleika á að greina tilfinningar, stress og þunglyndi í rödd, í samstarfi við dr. Kamillu Rún Jóhannsdóttur, lektor í sálfræði við Háskólann í Reykjavík. Rannsóknirnar byggjast á þeirri tilgátu að tilfinningaástand hafi áhrif á samskipti heilans við talfærin og að þetta megi greina í rödd viðkomandi. Þessar rannsóknir eru ennþá á frumstigi en niðurstöður kollega okkar í Bandaríkjunum sína til dæmis að hægt sé að greina Parkinsons veiki mun fyrr en áður með raddgreiningu [2]. Einnig sýna niðurstöður forathugana fram á mikla fylgni ýmissa einkenna í raddmerkinu við þunglyndi og kvíða. Talgreining fyrir íslensku varð að veruleika í ágúst 2012 þegar Google bætti 13 tungumálum við Google Voice Search kerfið sitt [3]. Nýju tungumálin voru baskneska, búlgarska, evrópsk portúgalska, finnska, gallíska, katalónska, norska, rúmenska, serbnenska, slóvenska, sænska, ungverska og íslenska. Ástæðuna fyrir því að íslenskan var eitt þessara tungumál má rekja til þess að ég hafði kynnst dr. Trausta Kristjánssyni þegar ég vann við rannsóknir í Columbia háskóla árið 2009. Trausti, sem var starfsmaður hjá Google í New York á þessum tíma, hafði lengi hvatt til þess innan fyrirtækisins að íslensku yrði bætt við sem tungumáli í kerfinu, oft við litlar undirtektir. Vorið 2011 ákvað hópur um alþjóðavæðingu (i18n) innan Google undir forustu Pedro Moreno að láta á þetta reyna. Til þess að framleiða talgreini þarf tækni- innviði annarsvegar og gögn hinsvegar. Þar sem Google hafði þá þegar framleitt talgreina fyrir fjölmennari málsvæði skorti þá ekki tækni né þekkingu til þess að búa til talgreini fyrir íslensku heldur þurftu þeir rannSóknir og Tækniþróun á raddmerkjum og málTækni Jón Guðnason, lektor tækni- og verkfræðideild Háskólans í Reykjavík

x

Tölvumál

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Tölvumál
https://timarit.is/publication/239

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.