Orð og tunga - 01.06.2014, Page 136
124
Orð og tungn
fræðum. Upprunaleg gögn sem notuð voru í BÍN voru orðabókar-
gögn, aðallega úr rafrænni útgáfu af íslenskri orðabók (Mörður Árnason
2000), en þar voru u.þ.b. 135 þúsund flettiorð, og úr gagnasöfnum
Orðabókar Háskólans. Leitað hefur verið í ýmsar aðrar heimildir um
orðaforða en næsta stig er að bæta orðaforðanum úr MÍM við.
Frá upphafi var ætlunin að sýna íslenska beygingarkerfið eins
og það er í raun, með eins góðri lýsingu á beygingarafbrigðum og
nokkur kostur er. Vegna þessa var strax ákveðið að búa til safn beyg-
ingardæma þar sem hver beygingarmynd er geymd og sýnd á sínum
stað í beygingardæminu, í stað þess að setja saman virkt kerfi beyg-
ingarreglna þar sem orð eru merkt eftir því hvaða regla á við í hverri
formdeild. Meginástæðan fyrir þessu var gagnaskortur en í ljós kom
að nauðsynleg gögn til að setja fram slíkt reglukerfi voru einfaldlega
ekki til þrátt fyrir langa sögu rannsókna á íslensku máli.
Vandamálið er að reglukerfi sem sett er fram á grunni ónógra
gagna um beyginguna er bæði of- og vanvirkt, þ.e. það framleiðir
mun fleiri orðmyndir en æskilegt er (t.d. fleirtölumyndina sykrnr af
karlkynsorðinu sykur) og sleppir öðrum (t.d. þágufallsmyndinni hönd
í merkingunni rithönd). Til gagnagreiningar og til nota í leitarvélum
kemur ofvirkni ekki verulega að sök þar sem tilbúnar orðmyndir
koma einfaldlega aldrei fram en vanvirkni verður til þess að tækar
orðmyndir verða útundan, t.d. í leit og greiningu, þ.e. þær verða að
óþekktum orðum sem eru eitt af helstu vandamálum í textagreiningu.
Ofvirkt reglukerfi er líka ótækt til framleiðslu á beygingarmyndum,
a.m.k. ef útkoman á að vera rétt beygingardæmi. Þegar slík gögn eru
notuð í máltæknibúnaði sem skilar frá sér texta verður niðurstaðan
ekki góð, ef tilbúnar orðmyndir koma þar í stað þess sem rétt er. Þetta
atriði er mjög mikilvægt, t.d. í ljósi þess að gögn úr BÍN eru notuð til
samhengisháðrar leiðréttingar. Þá gera notendur BIN á vefnum kröfu
um að beygingardæmin sem birtast á síðunni séu rétt og skili sér ekki
sem afrakstur af ofvirkum reglum.2
2 Flækjustigið í íslenska beygingarkerfinu
Hlutfallið á milli fjölda beygingardæma og beygingarmynda í BÍN
2 Notendur BÍN á vefnum eru mjög duglegir við að senda fyrirspumir um vafaatriði
í beygingardæmunum og leiðréttingar, þar sem þess er þörf. í maí 2013 voru
heimsóknir á síðuna 53.907 og flettingar 211.902. Notendur voru 20.301, þar af
79% innanlands.