Orð og tunga - 01.06.2012, Blaðsíða 40
30
Orð og tunga
saman. Ein allsherjarþyrping er vitanlega ekki það sem verið er að
stefna að og því er leitað að þeim stað í sameiningarferlinu sem sýnir
merkingarfyllstu skiptinguna. Allar merkingarlega skyldar þyrpingar
ættu því að tengjast en óskyldar þyrpingar ekki.
A mynd 1 er dæmi um stigveldisþyrpingu. Þyrpingarnar með orðin
síld og tonn næst miðju eru skyldastar og mynda fyrst nýja þyrpingu.
Þá eru þyrpingarnar með orðin kvóti og veiðar næst miðju tengdar
saman og ný þyrping mynduð, og að síðustu eru þessar tvær nýju
þyrpingar tengdar saman. Þyrpingarnar eru misjafnar að gæðum
eins og búast má við af sjálfvirkri greiningu og einhver kann t.d. að
undrast það að hangikjöt kemur fyrir í þyrpingu með síld og söltun.
Það þýðir að þessi orð standa að einhverju leyti í svipuðu samhengi
í málheildinni og í raun ekki svo fráleitt að hangikjöt tengist a.m.k.
söltun að einhverju marki. Þess má geta að hangikjöt er einnig að finna
með orðinu jóladagur í annarri þyrpingu tengdri merkingarsviðinu
,veisluhöld'.
sild tonn
hangikjöt, söltun, afii, þorskur,
rysting, landvinnsla ... stld, kvóti,...
kvóti
aflaheimild,
veiðiheimild,
auðlind,
útgerðarmaður, ...
Mynd 1: Stigveldisþyrping tengir saman skyldar þyrpingar
veióar
veiðtmaður,
rjúpa, veiði,
minkur, rjúpnaveiði, ..
5 Blönduð aðferð - mynsturgreining og tölfræði
Structured Dimensioti Extraction and Labeling (strudelJ (Baroni et al.
2010) er aðferð til þess að greina merkingarvensl milli orða samkvæmt
mynstrum og reikna út líkindin á því að venslin eigi við. Þannig er
mynstraaðferðinni og tölfræði blandað saman til þess að freista þess
að bæta niðurstöður. strudel vinnur ekki með fyrirfram skilgreind
mynstur heldur notar einungis leiðandi reglur (e. heuristics) og tak-
markanir (e. constraints) til þess að greina mynstur sem líkleg eru
til þess að vísa á merkingarvensl. Markorð eru merkt sérstaklega í
mörkuðum texta fyrir greiningu og forritið kannar umhverfi orðanna
og greinir mynstur samkvæmt takmörkunum sem gefnar eru. Orða-