Lesbók Morgunblaðsins - 26.01.1991, Blaðsíða 10
A N N S Ó K N 1 R í H mr A S K Ó L A • ~ í I S L A N D S
Umsjón: Hellen M. Gunnarsdóttir
Tölva sem talar íslensku
Eftir HÖSKULD
ÞRÁINSSON
því sem hér er kall-
að talvél er bæði átt
'M ■ við vélbúnað og hug-
m búnað, í okkar tilviki
1 ■ talgervil sem fram-
leiðir hljóðin, tölvu-
spjald sem setja má
í venjulega PC-tölvu
eða sambærilega vél og forrit sem fylgja.
Notagildi talvéla er margvíslegt. Þeir sem
ekki geta talað af einhveijum ástæðum, t.d.
vegna þess að þeir hafa misst röddina, geta
látið slíkar vélar tala fyrir sig. Þá „segir“
tölvan jafnóðum það sem þeir slá inn á lykla-
borð hennar. Talvélar geta líka lesið upp-
hátt fyrir þá sem eiga erfitt með lestur, svo
sem blinda eða sjónskerta. Nú eru bækur
og blöð yfirleitt tölvusett og því auðveldara
en áður að fá texta á tölvutæku formi. Slíka
texta geta talvélar lesið upphátt. Sums stað-
ar er líka hægt að fá það helsta úr dagblöð-
unum sent heim á tölvutæku formi með
FM-sendum. Þá tekur þar til gerður búnað-
ur á móti efninu og geymir það og síðan
getur notandi látið talvél sína lesa það við
tækifæri. Sjónskertir í Svíþjóð eiga t.d. kost
á slíkri blaðaþjónustu. Enn má nefna að
unnt er að tengja skanna eða lesvél við
talvélina. Skannar af því tagi geta „lesið“
prentað mál og breytt því í tölvutækt form
sem talvélin getur síðan lesið upphátt. Á
þann hátt geta blindir og sjónskertir notað
lesvélar til að lesa bækur eða annað prentað
mál. Loks getur oft verið hentugt við ýmiss
konar tölvuvinnslu, kennslu og þjálfun að
geta látið tölvuna „segja“ það sem stendur
á skjánum. Þá þarf að vera talvélarbúnaður
í tölvunni. Skjálesari sem IBM hefur hannað
fyrir sjónskerta (Screen Reader) þarf til
dæmis á slíkum talvélarbúnaði að halda og
einnig hefur þetta verið tengt Blisskerfmu.
ÍSLENSKA
Talvélarverkefnið
Á Talrannsóknastofnun Tækniháskólans
í Stokkhólmi hefur verið hönnuð talvél sem
er í eðli sínu óháð tungumálum, enda hefur
henni þegar verið „kennt“ að tala nokkur
tungumál. Islenska talvélarverkefnið hefur
falist í því að laga þennan búnað að kröfum
íslensks máls. Frumgerð búnaðarins verður
prófuð og endurbætt hér heima og í Svíþjóð
nú í vetur og næsta sumar, eftir því sem
tök eru á, en að því búnu má vænta íslensku
talvélarinnar á markaðinn. Sænska fyrir-
tækið Infovox framleiðir gripinn.
Hvernig Vinnur Talvélin?
Talgervillinn tekur við upplýsingum frá
hugbúnaðinum um það hvernig hljóðin eigi
að vera hveiju sinni og er þá miðað við
hljóðeðlisfræðilega eiginleika þeirra. Helstu
þættir sem hugbúnaðurinn stjómar í hljóð-
Yfirlitsmynd yfir helstu þætti sem unnt er að stjórna í hljóðmyndun sænska tal-
gervilsins (OVE) og innbyrðis tengsl þeirra:
AO = röddun; AH = blástur; AC = núningshljóð (friction); AN = nefjun.
F1-F4, FN og K1-K2 = formendur.
FO = grunntónn (liljómfall); CO = óbilkvæmar sveiflur („hávaði'j.
B1-B4, BN og C1-C2; breidd tíðnibils (bandwidth).
SL, FL, CC: stjórn á brúun (interpolation) milli hljóða.
Hljóðritaður
texti
Venjulegur
texti
Orðasafn
notanda
TalnareglurI
Orðasafn
-—4
Reglur um við- ■
skeyti og endingarl ^
-----------
Orðasafn
1
H1jóSritunarreglur
Samruna-
reglur
T
Hljóðritun
t
]
Setningarreglur
> .......
]
H1jóðfræSilegar
reglur
T-----
]
Til talgervils
Yfirlit yfir einstaka þætti í reglukerfi INFOVOX talvélarinnar og innbyrðis
tengsl þeirra (sjá skýringar í meginmáli).
Unnið við íslensku talvélina í húsnæði Málvísindastofnunar Iláskólans.
myndun talgervilsins sjást á 1. mynd.
Einstakir þættir í reglukerfi talvélarinnar
eru sýndir á 2. mynd. Til skýringar skúlum
við líta á eina setningu og skoða hvernig
talvélinni er leiðbeint um framburð hennar.
(1) Keypti Þór Whitehead ekki 25 flösk-
ur af fanta og kartöfluflögur?
Efsti „kassinn“ á 2. mynd heitir Orða-
safn notanda. Þar getur notandi t.d. sett
inn orð sem hann þarf oft að láta vélina
lesa en reglur hennar ráða ekki við. Hér
myndi vélin t.d. segja „tvöfaltvaffhitehead“
eða eitthvað slíkþ fyrír Whitehead. Úr því
gæti notandi bætt með því að setja White-
head inn í orðasafn sitt með viðeigandi upp-
lýsingum um framburð. Vélinni hefur hins
vegar verið kennt að túlka séríslenska stafi
á borð við Þ í Þór svo þeir valda engum
framburðarörðugleikum. Erlenda drykkjar-
heitið fanta má líka bera fram samkvæmt
íslenskum reglum — og talvélin segir það
eins og Norðlendingur því hún getur raunar
ekki annað.
Næsti kassi heitir Talnareglur. Þar er
vélinni kennt að lesa úr tölustöfum og hún
les 25 réttiléga sem „tuttuguogfimm“. Aftur
á móti veit hún ekki hvort tölur eins og 24
ber a lesa sem „tuttuguogfjórir", „tuttugu-
ogfjórar“ eða „tuttuguogijögur“. Eins og
er hefur hún allar slíkar beygjanlegar tölur
í karlkyni. Vonandi getur Jafnréttisráð sætt
sig við það í bili.
I Orðasafni eru geymdar upplýsingar
um öll orð sem eru á einhvern hátt afbrigði-
ieg að því er framburð varðar eða talvélin
þarf að hafa sérstákar upplýsingar um. Þar
eru t.d. fornöfn og ýmis smáorð sem eru
áherslulaus að jafnaði, t.d. af og og sem
koma fyrir í okkar dæmi. Áhersluleysið er
merkt í hljóðritun þessara orða í orðasafn-
inu. Þar má líka geyma orð eins og kartöflu-
flögur sem er erfítt í framburði vegna þess
að -fl- inni í því orði er borið fram -bl- í
fyrra skiptið (í kartöflu) en -fl- í það síðara
(í -fldgnr).
Reglur um viðskeyti og endingar má
nota til að kenna tölvunni svolitla beyginga-
fræði. Við gætum t.d. haft stofnmyndirnar
kartöfluflag- og kartöflufiög- í orðasafninu
og síðan allar beygingarendingar með og
án greinis í sérstakri endingaskrá í „beyg-
ingafræðinni“ (t.d. -a, -u, -ur, -um, -na,
-urnar, -unum, -nanna), enda koma þær
fyrir í mörgum fleiri orðum, sem nauðsyn-
legt getur verið að hafa í orðasafninu. Þeg-
ar tölvan rekst á orðmyndina kartöfluflögur
athugar hún hvort unnt sé að klippa ein-
hveija beygingarendingu aftan af henni og
fínna afganginn i orðasafninu. Þá myndi
hún finna stofninn kartöfluflög- með því
að taka beygingarendinguna -ur aftan af.
Hún fær þá upplýsingar í orðasafninu um
réttan framburð þessa stofns, geymir þær,
bætir endingunni við aftur (það er gert í
hlutanum sem er merktur Samrunareglur)
og ber orðið síðan fram eftir venjulegum
reglum. Með þessu móti má spara plássið
í orðasafninu verulega.
Langflest íslensk orð eru borin fram sam-
kvæmt almennum framburðarreglum sem
íslenskir málfræðingar þekkja. Eftirlíkingar
þessara reglna eru í þeim hluta kerfisins
sem Hljóðritunarreglur og Hljóðfræði-
legar reglur. í hljóðritunarreglunum er
tölvunni t.d. sagt að það sem skrifað er sem
-kk- í orðum eins og ekki er í raun borið
fram eins og það væri stafsett -hk- (þ.e.
með svokölluðum aðblæstri), -pt- í keyptier
borið fram líkt og ritað væri -ft-, og -fl-
er yfírleitt borið fram -bl- á eftir sérhljóði,
sbr. kartöílu-, þótt því sé ekki að treysta
í samsettum orðum eins og við höfum
séð. I hljóðfræðilegu reglunum er hins
vegar gerð grein fyrir því að k- í keypti
hþ'ómar öðru vísi en k- í kartöflu-. í hljóð-
fræðilegu reglunum er sagt fyrir um það
hve löng einstök hljóð eiga að vera og
hvemig hljómfall á að vera í setningum,
að svo miklu leyti sem slíkt má ráða af
greinarmerkjum og sliku. Þess vegna
getur talvélin látið setninguna í (1)
hljóma eins og spurningu.
Þá er ótalinn kassinn Setningarreglur
á 2. mynd. Þar má koma fyrir reglum sem
gera tölvunni kleift að nýta sér upplýsingar
varðandi setningagerð, þótt í takmörkuðum
mæli sé. Þar má t.a.m. vísa til orðflokka á
borð við forsetningar eða fornöfn af því að
þau orð eru yfírleitt í orðasafni tölvunnar
og þar er orðflokkur þeirra merktur. Þetta
má nota til að lagfæra atriði í hljóðrituninni
sem varða áherslu og lengd áður en tölvan
fer að beita hljóðfræðilegu reglunum.
Lokaorð
Af því sem hér hefur verið rakið ætti að
vera ljóst að meginvinnan í því að laga
þennan alþjóðlega búnað að kröfum íslensks
máls hefur verið málfræðilegs eðlis og þvi
verkefni fyrir íslenska málfræðinga (Pétur
Helgason, Höskuldur Þráinsson). Hún hefði
þó ekki verið unnin án dyggrar aðstoðar
og hvatningar manna með verkfræðimennt-
un (Páll Jensson verkefnisstjóri), tölvufræði-
menntun (Kjartan R. Guðmundsson), áhuga
og þekkingu á málefnum fatlaðra (Guðrún
Hannesdóttir, Arnþór Helgason) og sér-
þekkingu á eðli kerfisins (Björn Granström
og Rolf Carlson). Einnig var nauðsynlegt
að hafa aðgang að gagnabanka um íslensk
orð og tíðni þeirra (Orðabók Háskólans) og
njóta stuðnings og fyrirgreiðslu íslenskra
tölvufyrirtækja (Einar J. Skúlason, IBM á
Islandi). Þetta verkefni er því dæmi um
árangursríka samvinnu margra og ólíkra
aðila.
Höfundur er prófessor í íslensku nútímamáli
við Háskóla (slands.
Heimild: Pétur Heljgason. 1990. Lokaskýrsla verkefnis
umjölvutal. Málvisindastofnun Hl, verkfræöideild Hl
og Oryrkjabandalagið, Reykjavík.
v