Orð og tunga - 01.06.2014, Blaðsíða 148
136
Orð og tunga
línis máli í vinnunni við BÍN en getur nýst sem ýtarefni í máltækni,
t.d. í leiðréttingarbúnað o.þ.h., þar sem eitt af meginvandamálum í
máltækni er greining á óþekktum „orðum“ eða stafastrengjum.
Fyrsta niðurstaða úr samanburðinum á MÍM og BÍN er sú að
bæta þurfi 125 þúsund beygingardæmum við í BÍN. Meðalfjöldi orð-
mynda í beygingardæmi í BÍN er rétt yfir 20, þannig að alls gætu
viðbótarorðmyndirnar orðið yfir 2,5 milljónir en heildarfjöldi beyg-
ingardæma yrði þá hátt í 400 þúsund og beygingarmyndir yfir 8,3
milljónir. Þetta eru bráðabirgðatölur þar sem bera þarf saman upp-
flettiorð í BIN og MÍM og gáta lemmunina en því verki verður ekki
lokið fyrr en allt efnið er komið inn í BIN. I vinnuferlinu verður gengið
úr skugga um að allar beygingarmyndir í MIM séu á sínum stað í BIN
og er það lokastigið í samanburðinum.
Vinna við viðbótarefnið í BIN er hafin. Beygingarflokkur orða er
fundinn með samanburði við efni sem fyrir er í BIN, m.a. með því
að nota greiningartól fyrir samsett orð.26 Síðan er færslan fyrir hvert
orð fullunnin, með því að merkja gildi á beygingarformdeildum sem
koma eiga fram í hverju beygingardæmi, t.d. +/-et, +/-ft. o.s.frv., sbr.
Töflu 1. Beygingarmyndir úr MIM verða hafðar til hliðsjónar, ásamt
efni úr öðrum heimildum eftir þörfum, sbr. það sem sagt er um gagna-
öflun hér að framan. Jafnframt verða beygingardæmi sem þegar eru
í BIN endurskoðuð eftir því sem viðbótarbeygingarmyndir úr MIM
gefa tilefni til.
7 Gagnaskortur
Samanburðarefnið úr MIM er 17,7 milljónir lesmálsorða, alls 737.856
strengir sem teljast vera orðmyndir. Þar af eru beygingarmyndirnar
sem hér eru til athugunar tæplega 623 þúsund (84%). Þetta er lítið brot
af beygingarmyndunum sem þegar eru í BÍN, þ.e. 5,8 milljónum.27
Þessar tölur gefa vísbendingu um það hve stór málheild þyrfti að
vera til þess að hægt væri að nota hana til þess að setja fram beyg-
ingarlýsingu á borð við BIN eða samsvarandi beygingarreglur um ís-
2<> Greiningartólið er verk Jóns Friðriks Daðasonar í samvinnu við Stofnun Arna
Magnússonar í íslenskum fræðum og er hluti af meistaraverkefni hans um leið-
réttingu á ljóslesnum texta (Jón Friðrik Daðason 2012).
27 Af tæknilegum ástæðum er ekki enn gerlegt að bera saman heildarfjölda upp-
flettiorða í MIM og BIN þar sem gera verður ráð fyrir talsverðum fjölda af villum
í lemmun í MIM á orðmyndum sem einnig eru BIN. Það efni hefur ekki enn verið
athugað.