Orð og tunga - 01.06.2012, Blaðsíða 34
24
Orð og tunga
Yfir 2.600 mynstur reyndust gefa einhverskonar merkingarvensl til
kynna. Með því að nýta algrím7 sem fellir saman mjög lík mynstur
(e. minimum edit distance) (Ruiz-Casado, Alfonseca & Castells 2005)
og reglulegar segðir var unnt að þjappa þessum mynstrum saman
í 30 reglur fyrir greiningu merkingarvensla. Með þessum reglum
voru 39 mismunandi vensl greind: yfirheiti, hliðstæð nafnorð, hlið-
stæð lýsingarorð, eiginleiki (no. - no.), eiginleiki (lo. - no.) auk 34
forsetningavensla. Tíðni venslanna er mjög mismunandi. Hliðstæð
nafnorð og eiginleikavensl eru langalgengust en vensl byggð á for-
setningunum meðfram, eftir (+ þf.) og andspænis eru mjög fá. Sem dæmi
um merkingarvenslagreiningu fyrir eitt orð sýnir (5) hluta orða sem
standa í merkingarvenslum við málverk:
(5) málverk - yfirheiti - listmunur, listaverk
málverk - hliðstæð no. - teikning, Ijósmynd, liöggmynd,
listaverk,...
málverk - eiginleiki (no.-no.) listamaður, meistari, lista-
saga, málari
málverk - eiginleiki (lo.-no.) stór, nýr, frægur, fallegur, ...
málverk - af - stóll, landslag, atburður, haf
málvcrk - úr - myndröð
Þessi vensl hafa verið greind úr textabútum eins og til dæmis málverk
og önnur listaverk; málverk, teikningar og Ijósmyndir; málverk meistaranna;
málverk af hafinu o.s.frv. Venslin eru ýmist algild eins og málverk -
yfirheiti - listaverk, eða eru einungis gild í ákveðnum tilfellum (ekki
eru öll málverk fræg eða af landslagi). Orðið listaverk er að finna á
tveimur stöðum í dæminu: sem yfirheiti (málverk og önnur listaverk)
og sem hliðstætt orð (málverk og listavcrk). Það er ekki óalgengt að
mynsturgreiningin finni fleiri en ein vensl á milli tveggja orða og það
verður hluti af vinnunni við samþættingu niðurstaðna að velja ein
ákveðin vensl sem eiga að gilda fyrir hvert orðapar.
Forsetningavensl lýsa oft og tíðum sterkum venslum en samt sem
áður er ekki unnt að skilgreina hver forsetningavensl á ótvíræðan
hátt. Venslin ull - af - kind eru til dæmis annars eðlis en málverk -
af - landslag. I fyrri venslunum er um hlutheitavensl að ræða, ull -
hluti_af - kind, en það er útilokað að skilgreina málverk - hluti_af -
landslag. Hér stendur fyrra orðið en ekki það seinna fyrir heildina og
7 algrím (e. nlgoritlim): ákveðin röð af reglum og aðgerðum sem segir til um hvernig
leysa eigi ákveðið verkefni.