Orð og tunga - 01.06.2012, Blaðsíða 37
Anna B. Nikulásdóttir: Tölvutækur merkingarbrunnur
27
því einungis að bera saman vektorana úr samhengisgreiningunni - því
líkari sem vektorarnir eru því skyldari eru markorðin merkingarlega.
Tafla 1 sýnir tilbúið dæmi um fylki með tölum fyrir nokkur markorð
með samhengisorðum. Fyrir hvert markorð er hægt að mynda vektor,
sem dæmi borðstofa [7, 0, 5, 10, 0, 0]. Samanburður tveggja vektora
felst í því að bera saman tölurnar í hverjum reit: fyrstu tölu í vektor
a með fyrstu tölu í vektor b o.s.frv. í töflu 1 eru vektorarnir fyrir
borðstofa, baðherbcrgi og pvottahús svipaðir en vektorarnir fyrir hljóm-
plata annarsvegar og þorskur hinsvegar skera sig úr og teljast því ekki
tengjast öðrum markorðum í fylkinu.
innrétting hljómsveit farstofa borókrokur vsa afli
borðstofa 7 0 5 10 0 0
badherbergi 11 0 9 9 0 0
þvottahús S 0 9 11 0 0
híjómplata 0 8 0 0 0 0
þorsknr 0 0 0 0 11 23
Tafla 1. Tilbúið dæmi um jylki sem sýnir hve oft ákveðin markorð (lítiur) koma fýrir mcð
samhengisorðum (dálkar).
Frekari ákvarðanir sem þarf að taka við útreikning merkingartengsla
lúta að vali á reikniaðferðum. Yfirleitt er samanburður vektoranna
ekki framkvæmdur með því að bera beint saman niðurstöður grein-
ingarinnar sem lýst var hér að ofan. Þær tölur segja ekki endilega
til um hve sterk tengsl eru á milli markorðs og samhengisorðs. Til
að mynda er dreifingin meiri og tölurnar hærri hjá algengum mark-
orðum en þau gætu engu að síður verið merkingarlega skyld sjald-
gæfari orðum. A tölunum eru því framkvæmdir útreikningar sem
auka upplýsingagildið, til dæmis með því að reikna út hve líklegt
er að ákveðið markorð og ákveðið samhengisorð komi fyrir saman í
textanum. Vektorarnir eru síðan bornir saman. Hér var notuð kósínus
formúla sem mælir hve líkir vektorarnir eru (e. cosine similarity, sjá
t.d. Manning & Schútze 1999:299, einnig almennt um þetta efni í
kafla 8.5 í sömu bók). Með niðurstöðum samanburðarins er hægt að
flokka markorðin eftir merkingartengslum: því nær tölunni 1,0 sem
niðurstaða samanburðar tveggja vektora er, því skyldari eru orðin
(sjá t.d. einnig rannsókn Bullinaria 2008).
Að ofangreindum útreikningum loknum var hvert markorð vist-
að með 14 skyldustu orðunum. Markorðin sem vistuð voru koma
fyrir með minnst 10 samhengisorðum en þó ekki með fleiri en 3000