Orð og tunga - 01.06.2012, Blaðsíða 36
26
Orð og tunga
valið á samhengisorðunum var sett saman tíðnitafla nafnorða, sagn-
orða og lýsingarorða, eitt hundrað algengustu orðunum var sleppt
og næstu 5000 skilgreind sem samhengisorð. Algengustu orðin voru
ekki notuð þar sem þau eru ekki nægilega aðgreinandi, það eru til
dæmis ekki sérkennandi upplýsingar fyrir orð að það komi fyrir í
námunda við sögnina vera. Fjöldi samhengisorða var valinn með það
í huga að geta lýst dæmigerðu umhverfi markorðanna sem best en að
samhengisorðin hefðu samt sem áður ákveðna tíðni í málheildinni.
Þegar markorð og samhengisorð hafa verið valin þarf að skilgreina
umhverfið eða samhengið sem á að kanna. Samhengið getur til að
mynda verið afmarkað af ákveðnum fjölda orða í kringum markorð,
svokölluðum orðaglugga, og einnig er hægt að tiltaka hvort kanna á
samhengi vinstra megin, hægra megin eða báðum megin við mark-
orðin. Margar rannsóknir hafa verið gerðar með mismunandi gerðum
orðaglugga, en ekki hefur verið hægt að sýna fram á að ein ákveðin
skilgreining sé árangursríkust (Sahlgren 2006). í þessari rannsókn
voru nokkrar tilraunir gerðar með mismunandi stærðir orðaglugga.
Stærri orðagluggar, t.d. af stærðinni 25 (12 orð vinstra megin og 12
orð hægra megin við markorðin), reyndust nýtast vel til þess að skipta
orðum upp í merkingarsvið. Til þess að marka sérkenni orðanna enn
frekar skiluðu smærri orðagluggar betri niðurstöðum. Að endingu
var orðagluggi af stærðinni sjö notaður, þ.e. þrjú orð vinstra megin og
þrjú orð hægra megin við markorðin voru könnuð. Fyrir greininguna
var búin til tafla þar sem hver lína stendur fyrir eitt markorð og hver
dálkur fyrir eitt samhengisorð. Hver reitur í fylkinu8 stendur fyrir
það hve oft viðkomandi markorð (=lína) kemur fyrir með ákveðnu
samhengisorði (=dálkur). I upphafi stóð því talan 0 í öllum reitum
og þegar samhengisorð fannst innan orðaglugga ákveðins markorðs
var talan í viðkomandi reit hækkuð um einn. Að greiningu lokinni
var því hvert markorð tengt við vektor9 sem sýnir dreifingu orðsins í
námunda við ákveðin samhengisorð og vektorinn er þannig lýsandi
fyrir það samhengi sem orðið kemur fyrir í í textasafninu (skv.
fyrirfram skilgreinda samhengishugtakinu). Kenningin sem liggur
til grundvallar útreikningum á merkingartengslum er sú, að orð sem
koma fyrir í svipuðu samhengi séu merkingarlega tengd (sjá t.d.
Schútze 1993). Til þess að reikna út merkingartengsl markorða þarf
s fylki (e. matrix): tafla með línum og dálkum.
“ vektor (e. vector): hverja línu eða hvern dálk í fylki má skilgreina sem vektor. Línu-
vektor samanstendur af reiturn úr dálkunum í fylkinu, hver reitur stendur fyrir
einn dálk. Línuvektorar fylkis með tíu dálka telja því tíu reiti.