Íslenskt mál og almenn málfræði - 01.01.2001, Page 87
85
Tungumál, tölvur og tungutœkni
að þjálfa á stóru gagnasafni þar sem fyrir koma öll málhljóð í fjöl-
breyttu hljóðfræðilegu umhverfi. í safninu þurfa einnig að koma fyrir
sem flest orð, a.m.k. öll algengustu orð málsins. Þá þarf að gæta þess
að í safninu séu dæmi um ólíkar raddir, bæði karl- og kvenraddir;
dæmi um allar framburðarmállýskur; dæmi um mismunandi talhraða,
naismunandi skýr framburður o.s.frv.
Grunnur að safni af þessu tagi er fyrir hendi í íslenskum talmáls-
banka sem nefndur var hér að framan. Sá grunnur er hins vegar bæði
lítill og fábreyttur og dugir sennilega skammt sem þjálfunarsafn í tal-
greiningu. Fyrirtækið Voice Era í Bolungarvík hefur nýlega komið
UPP stóru íslensku hljóðsafni þar sem hundruð manna voru fengin til
að lesa nokkra tugi setninga í síma. Þetta hefur verið notað við gerð
íslensks raddgreinis, sem sagt er að þekki „öll íslensk orð í u.þ.b.
80% tilvika" (sjá http.V/www.eravoice. com/index.phtml?go=faq#3),
en ekki er alveg ljóst hvemig á að túlka það.
2.3 Mörkun og markarar
Sé stór málheild tiltæk má beita ýmsum tölfræðilegum aðferðum til að
finna mynstur í málnotkun og nota þau mynstur við gerð tungu-
tæknitóla. Til að málheild komi að sem bestum notum þarf hún þó
helst að vera málfræðilega mörkuð (e. tagged), en með mörkun (e.
ta8ging) er átt við það að merkja eindir í samfelldum texta á kerfis-
hundinn hátt. Eindimar geta verið bókstafir, orð, setningarliðir, setn-
ingar o.fl. Merkingamar geta líka verið af ýmsum toga. Þannig er t. d.
hægt að hugsa sér að öll mannanöfn séu merkt á ákveðinn hátt, öll
staðanöfn á annan hátt, öll erlend orð í textanum séu sérmerkt, o. s.frv.
Td að marka texta þarf sérstakan hugbúnað, markara (e. tagger).
h^álfræðileg greining og mörkun er nauðsynleg í margvíslegum
inngutæknitólum. Hér á eftir er gerð stutt grein fyrir því hvaða gildi
slík greining hefur og hvemig hún fer fram.
2.3.1 Tilgangur málfræðilegrar mörkunar
Gmndvallaratriðið í mörkun málfræðilegra upplýsinga er orðflokks-
mörkun (e. PoS [= part-of-speech] tagging), þar sem orðflokksmerki