Orð og tunga - 01.06.2012, Blaðsíða 41
31
Anna B. Nikulásdóttir: Tölvutækur merkingarbrunnur
pörin sem tengd eru með þessum hætti lýsa oft óhefðbundnum vensl-
um en samt sem áður lýsa tengdu orðin markorðinu oft á tíðum vel.
Slík vensl er t.d. að finna í dæmi sem Baroni og félagar nefna í grein
sinni um markorðið book sem stendur í venslum við orð eins og reader
(book - for - reader, reader - of- book), author (author - of- book, book -
by - author) og library (library - of - book, book - in - library). Eins og
sjá má er hér notast við forsetningavensl eins og í mynsturgreining-
araðferðinni fyrir íslenska merkingarbrunninn.
Reglurnar og takmarkanirnar í strudel miðast við ensku. Með
lágmarksaðlögun forritsins var Islenskur orðasjóður greindur með for-
ritinu en eflaust væri hægt að bæta niðurstöður með því að bæta inn
reglum og takmörkunum sem sérstaklega ættu við íslensku þótt ekki
sé ljóst hvernig slíkar reglur myndu líta út. Fara þyrfti yfir kóðann í
strudel forritinu til þess að kanna að hvaða marki væri hægt að laga
reglurnar að íslensku og hvort að einhverju leyti þyrfti að skrifa nýjar
reglur. Um það bil 340.000 vensl úr greiningu á orðasjóðnum voru yfir
þeim líkindamörkum sem höfundar strudel miðuðu við í rannsókn
sinni. Dæmi um vensl orðisins mjólk sem hafa há líkindagildi eru: ábót
- við - mjólk, drekka - mjólk, flóaður - mjólk, hella - mjólk, framleiða -
mjólk, lítri - af- mjólk.
Niðurstöðum strudel greiningarinnar svipar að mörgu leyti til
niðurstaðna mynsturgreiningarinnar: vensl eru ekki skilgreind fyrir-
fram og hér er einnig að finna forsetningavensl. Engin sagnorð koma
þó fyrir í greiningu mynstraaðferðarinnar en hún skilar mun fleiri
venslum. Fyrstu tilraunir með að tengja tölfræði við niðurstöður
mynsturgreiningarinnar líkt og gert er í strudel gáfu yfir 1 milljón
vensla (af um 3,4 milljónum) sem eru nógu há líkindamörk til þess
að teljast líkleg vensl. Við endanlegt mat á niðurstöðum verða niður-
stöður þessara tveggja aðferða bornar saman sérstaklega til þess að
greina nánar sameiginlega og mismunandi eiginleika.
6 Formgerð merkingarbrunnsins
Mikilvægushi venslin í orðanetum að WordNet fyrirmyndinni eru
samheiti og yfirheiti (sjá einnig grein Matthew Whelpton (2012)
í þessu hefti). Þau eru byggð upp sem heildstæð yfirheitastigveldi
út frá grunnhugtaki eða -hugtökum. Frá öllum orðum í orðanetinu
liggur leið upp eftir stigveldinu að einhverju grunnhugtaki sem getur