Orð og tunga - 01.06.2012, Blaðsíða 35
Anna B. Nikulásdóttir: Tölvutækur merkingarbrunnur
25
efni málverksins, hér landslag, er ekki tengt við hlutinn málverk heldur
einungis mynd af því. Einn þáttur í því að samþætta niðurstöður,
sem er næsti áfangi verkefnisins, mun felast í því að kanna hvernig
orð sem hafa sömu vensl við ákveðið eða ákveðin orð tengjast. Til að
mynda finnast venslin ull - af - X fyrir orðin fé, kind, sauðfé og rolla sem
sýnir að í einhverjum tilfellum gæti þessi aðferð verið árangursrík til
þess að tengja skyld orð en þetta á þó eftir að kanna nánar.
4 Merkingartengsl
r
4.1 Utreikningur tengsla samkvæmt samhengi orða
Greining merkingarvensla með mynstraaðferðinni beinist að venslum
tveggja orða sem koma fyrir í ákveðnu setningaliðamynstri (sjá (3)).
Þá er litið til raðvensla orðanna. Við útreikning merkingartengsla
(e. semantic relatedness) er hinsvegar litið til umhverfis orða. Merk-
ingartengsl tengjast því frekar staðvenslum, þó ekki sé nauðsynlega
hægt að skipta út merkingarlega tengdum orðum hverju fyrir annað.
Fyrir útreikning á merkingartengslum þarf að velja markorð og
samhengisorð. Markorðin eru þau orð sem á að reikna út tengsl
fyrir en samhengisorð eru þau orð sem tekið er tillit til við athugun
á umhverfi markorðanna. Þessi orð er hægt að velja á ýmsan hátt,
allt frá því að öll orð texta teljist hvort tveggja í senn, markorð og
samhengisorð (Bullinaria 2008), til þess að velja einungis takmarkaðan
fjölda og/eða flokka orða. Sem dæmi notuðu Cederberg & Widdows
(2003) í sinni rannsókn 1000 algengustu orðin í málheildinni sem
þeir unnu með sem samhengisorð og skilgreindu öll önnur orð
sem markorð og Schutze (1998) valdi 2000 samhengisorð á móti 20
þúsund markorðum. Það hefur ekki verið sýnt fram á að ákveðið val
markorða og samhengisorða gefi bestu niðurstöður. Við val á þessum
orðalistum þarf m.a. að hafa í huga stærð málheildarinnar sem
unnið er með og markmið útreikninganna. I útreikningunum fyrir
merkingarbrunninn voru 50 þúsund algengustu nafnorðin skilgreind
sem markorð. Markmiðið var að vinna tengslaupplýsingar fyrir sem
flest íslensk nafnorð. Stór hluti orðanna hefur þó mjög lága tíðnitölu
(sbr. lögmál Zipf, sjá t.d. Manning & Schutze 1999:23) og þar sem
ákveðin tíðni er nauðsynleg til þess að mögulegt sé að draga ályktanir
út frá tölfræði er ekki hægt að nota öll nafnorðin í málheildinni. Fyrir