Mímir - 01.06.2007, Page 49
Valdís Ólafsdóttir
Töluvert mál
Tölur í íslensku og meðferð þeirra í talgervlum
1. Inngangur
Ymis verkefni hafa verið unnin í tungutækni á
Islandi á undanförnum árum og meðal þeirra
má nefna talgervil sem les upp texta vélrænt.1
Góður talgervill þarf að vera ýmsum eiginleik-
um gæddur, t.d. varðandi framburð út frá staf-
setningu og tónfall, en auk þess þarf hann að
geta lesið rétt úr skammstöfunum og tölustöf-
um í texta svo að eitthvað sé nefnt.
í mörgum setningum eru tölustafir notaðir
til að tákna tölur í stað töluorða og þá þurfum
við oft að vita hvaða form talan tekur þar sem
tölurnar 1-4 og allar tölur sem enda á þeim
beygjast í föllum og kynjum. Við vitum til dæm-
is að liðinn 24 ára maður á að lesa „tuttugu og
fjögurra ára maður“ þar sem um er að ræða ald-
ur. í tungutækni skapar þetta ákveðin vandamál
þar sem tölvur eiga erfitt með að átta sig á því
hvernig á að beygja orð. Talgervlar geta „lesið“
orð en þegar kemur að tölum þurfa þeir að setja
sig í stellingar og mynda rétt form þeirra.
I íslensku hefur vandamálið með að bera
fram tölur nokkra sérstöðu þar sem tölur beygj-
ast í föllum og kynjum líkt og önnur fallorð. Til
þess að reyna að varpa betur ljósi á það vanda-
1 Greinin er unnin upp úr M.A.-ritgerð höfundar í
tungutækni við Háskóla Islands sem lokið var í febr-
úar 2006 undir leiðsögn Eiríks Rögnvaldssonar. Rit-
gerðina má finna í heild sinni á slóðinni
http://www.tungutaekni.is/news/toluvertmal.pdf.
mál var gerð rannsókn sem hófst á því að safn-
að var saman texta sem innihélt eingöngu máls-
greinar með tölum. Efninu var safnað af
vefsvæði Morgunblaðsins, mbl.is, um tveggja
mánaða skeið og með því fékkst málheild sem
inniheldur málsgreinar með rúmlega 11.000
tölum af ýmsum toga. Þessum málsgreinum var
síðan skipt í nokkra flokka eftir efni og því næst
hófst athugun á því hvort ekki væri hægt að búa
til einhvers konar reglur fyrir talgervla til að þeir
gætu borið tölurnar rétt fram.
Þegar málheildin var skoðuð kom í ljós að
þegar tölur komu fram í texta var mjög reglu-
legt hvar þær stóðu í setningum og því var hægt
að búa til reglur sem sögðu til um fall og kyn
tölunnar út frá undanfarandi eða eftirfarandi
orði. Reglurnar tóku mið af algengustu orðum
í kiingum tölur og gaf þetta nokkuð góða nið-
urstöðu.
Hér verður gerð grein fyrir því hvernig tölu-
orð og tölur haga sér í texta og helstu beyging-
arleg og setningarleg einkenni þeirra skoðuð.
Því næst verður athugað hvaða vandamál skap-
ast þegar talgervlar meðhöndla tölur og að lok-
um reynt að finna lausn á þeim vanda.
2. Töluorð og tölur í íslensku
2.1 Frumtölur
I Setningum (Höskuldur Þráinsson 2005),
handbók um setningafræði, er fjallað ýtarlega
47