Íslenskt mál og almenn málfræði - 01.01.2001, Blaðsíða 89
87
Tungumál, tölvur og tungutækni
Slík uppfletting dugir hins vegar ekki til að greina öll orð í sam-
felldum texta á ótvíræðan hátt. Það kemur t.d. í ljós við uppfletting-
una að þótt í sé einrætt orð er á ekki bara forsetning, heldur líka sögn-
in eiga í 1. og 3. persónu, eintölu, nútíð, framsöguhætti, germynd;
kvenkynsnafnorðið á í eintölu, nefnifalli, þolfalli og þágufalli; kven-
kynsnafnorðið ær í eintölu, þolfalli og þágufalli; og fleira mætti nefna.
Þótt greiningin á hestur sé ótvíræð getur hesta verið bæði þolfall og
eignarfall fleirtölu. Þótt fóruð sé einrætt er fórum tvírætt; getur ekki
einungis verið fyrsta persóna, fleirtala, þátíð, framsöguháttur, ger-
utynd 'di fara, heldur líka þágufall fleirtölu affórur (sem reyndar kem-
Ur tæpast fyrir í eintölu).
2-3.2 Markarar
Til að greiða úr tví- og margræðni orðmynda þarf annað þrep eða lag
í vinnslunni. í því lagi er önnur eða ein greiningin valin en hinni eða
hinum hafnað. Forrit sem framkvæma slíkt val vinna á ýmsa vegu, en
1 grundvallaratriðum má segja að þau skiptist í tvo flokka, þ.e. töl-
feæðimarkara (e. statistical/stochastic taggers) og reglumarkara (e.
rule-based taggers) (sjá Jurafsky og Martin 2000:300-307).
Tölfræðimarkarar byggjast á upplýsingum um tíðni einstakra
heygingarmynda til að velja líklegustu greininguna. Slíkur markari
myndi greina á rétt í setningunni Ég er á leiðinni, vegna þess að á er
mun oftar forsetning en nokkuð annað. Hins vegar yrði á ranglega
greint í setningunni Ég á þetta\ þar veldi tölfræðimarkarinn forsetn-
ingu eins og áður. Sömuleiðis yrði fórum trúlega greint ranglega sem
Sugn í sambandinu ífórum mínum, því að þessi orðmynd er mun al-
gengari sem sagnmynd en sem nafnorðsmynd.
Reglumarkarar nota reglur um gerð setninga og setningarliða til að
ntarka orðin. Þeir búa t. d. yfir upplýsingum um það að forsetning
kemur sjaldan næst á undan sögn og þess vegna er ólíklegt að orðið
fórum sé sögn í sambandinu ífórum mínum þótt svo gæti verið ef lit-
ið er á orðið eitt og sér. Reglumarkari ætti líka að búa yfir upplýsing-
Uru um það að þegar eignarfomafn stendur næst á eftir nafnorði sam-
beygjast orðin venjulega, þ.e., standa í sama kyni, tölu og falli. í sam-
handinu hesta þinna er þinna ótvírætt eignarfall, og þær upplýsingar