Orð og tunga - 01.06.2012, Blaðsíða 38
28
Orð og tunga
samhengisorðum en eins og áður sagði skila tölfræðiútreikningar
fyrir mjög sjaldgæf og mjög algeng orð ekki góðum niðurstöðum.
Dæmi um lista merkingarlega skyldustu orða er sýndur í (6):
(6) þorskur, tonn, ýsa, afli, fiskur, síld, steinbítur, veiðar,
ufsi, kvóti, loðna, fisktegund, rækja, kolmunni, heild-
arafli
í stað þess að telja einfaldlega orð innan orðaglugga má setja frekari
skorður á samhengið og líta til setningahlutverka. Orð sem standa
sem andlög með ákveðinni sögn hafa til að mynda oft einhverja
sameiginlega eiginleika. Andlög með sögninni að drekka til dæmis
vísa til einhvers konar vökva. Til þess að finna orð með svipaða eigin-
leika voru um 1.000 sagnir valdar sem samhengisorð og talið var hve
oft markorð koma fyrir sem bein andlög þessara sagna. Sömu út-
reikningar voru svo framkvæmdir og fyrir talningu orða innan orða-
glugga og sömuleiðis settir saman listar með tengdustu orðum. Dæmi
um þetta er sýnt í (7).
(7) þorskur, fiskur, síld, ýsa, rjúpa, hvalur, rækja, tonn,
fugl, ufsi, silungur, lax, sjóbirtingur, bleikja, loðna
Hér má greina nokkur merkingarsvið (e. domain) sem orðið þorskur
tengist. I (6) eru það ,fiskur' og ,fiskveiðar' og í (7) bætast við dýr
sem tengja má við annars konar veiðar eins og ,hvalveiðar' (hvalur)
og ,sportveiði' (rjúpa, silungur). Ef orð tengd orðunum í listunum
eru skoðuð kemur í ljós að orð sem tengjast fiskveiðum (kvóti, afli
o.s.frv.) koma oft fyrir með orðum í (6), og merkingarsviðið ,matur'
bætist við þar sem orð eins og sósa og grænmeti finnast í nokkrum
listum. Með því að bera saman tengd orð á þennan hátt og jafnframt
að kanna merkingarvenslin úr mynsturgreiningunni er stefnt að því
að tengja orð við mismunandi merkingarsvið og greina hvaða sviði/
sviðum orðin tengjast sterkast. Einnig verður litið til niðurstaðna úr
þyrpingagreiningu í því samhengi (sjá kafla 4.2.).
4.2 Merkingarþyrpingar
Niðurstöður úr útreikningum á merkingartengslum er hægt að nýta
til þess að mynda þyrpingar (e. clusters) merkingarlega tengdra orða.
Þá er vektor orðs eða meðaltal vektora orða skilgreint sem miðja
þyrpingar og orð sem hafa vektora sem reiknast nálægt þessari