Orð og tunga - 01.06.2012, Blaðsíða 39
29
Anna B. Nikulásdóttir: Tölvutækur merkingarbrunnur
miðju „þyrpast" um hana (sjá t.d. Manning & Schutze 1999). Fyrir
merkingarbrunninn voru tvær mismunandi þyrpingaraðferðir
notaðar: Clustering by Committee (CBC) (Pantel & Lin 2002) og Pole-
Based Overlapping Clustering (PoBOC) (Cleuziou, Martin & Vrain
2004). Fyrri aðferðin skilar frekar löngum listum orða sem tilheyra
ákveðnum merkingarsviðum en niðurstöður PoBOC sýna heldur
minni þyrpingar, allt niður í tvö náskyld orð (almanaksár - reikningsár;
tað - mykja). Báðar aðferðirnar leyfa það að sama orðið tilheyri
fleiri en einni þyrpingu og þannig geta mismunandi merkingar
eða merkingaráherslur orða komið fram. Til að mynda má sjá í
tveimur mismunandi þyrpingum úr PoBOC greiningunni að þorskur
tengist merkingarsviði sjávarútvegs (sbr. (8)) en tilheyrir einnig
merkingarþyrpingu sem inniheldur afurðir almennt (sjá (9)):
(8) þorskur, koli, kvóti, ufsi, krókabátur, línubátur, smá-
bátur, steinbítur, þorskkvóti, útgerð, kvótasetning,
ívilnun, grálúða, aflaheimild, línuveiði
(9) þorskur, fuglakjöt, kindakjöt, nautakjöt, innanlands-
markaður, þorskafli, söluaukning, búvara, afurðaverð,
mjólkurafurð
Orðið þorskur tilheyrir aftur á móti bara einni þyrpingu í CBC-grein-
ingunni eins og sýnt er í (10):
(10) tonn, afli, þorskur, síld, kvóti, veiðar, skip, togari, ýsa,
loðna, kolmunni, króna, heildarafli, milljón, aflaverð-
mæti, útgerð, ufsi, steinbítur, vertíð, verðmæti, fisk-
tegund, löndun, [...]
Þyrpingaraðferðirnar sem lýst er hér að ofan skila svokölluðum flötum
þyrpingum. Þær mynda þyrpingar sem eru óháðar hver annarri og
hver þyrping tilheyrir ákveðnu merkingarsviði. Þó myndast í sumum
tilvikum fleiri en ein þyrping sem tilheyra sama merkingarsviði.
Til þess að leitast við að tengja þessar þyrpingar innbyrðis og jafn-
framt að tengja þyrpingar með skyld merkingarsvið var annarri
þyrpingaraðferð beitt, svokallaðri stigveldaaðferð (e. hierarchical clus-
teringY0. Þá er fyrst leitað að þeim tveimur þyrpingum sem eru næstar
hvor annarri og þær tengdar saman til þess að mynda nýja þyrpingu.
Þannig vinnur algrímið sig upp þar til búið er að tengja allar þyrpingar
10 Notast var við stigveldisþyrpingaralgrim úr LingPipe máltæknitólinu (http://alias-
i.com/lingpipe, 30.06.2011).