Orð og tunga - 01.06.2012, Blaðsíða 31
Anna B. Nikulásdóttir: Tölvutækur merkingarbrunnur
21
handvirkt eins og gert hefur verið með WordNet. Einungis fámennur
hópur íslensks fræði- og vísindafólks vinnur að því að koma upp
sambærilegum gögnum og tólurn fyrir íslenska máltækni og þegar eru
til fyrir stærri málsamfélög. Til þess að gera það mögulegt að nothæf
útgáfa af merkingarbrunninum yrði tilbúin sem fyrst, þrátt fyrir
stærð verkefnisins og takmarkaðan mannafla, var ákveðið að beita
sem mest sjálfvirkum aðferðum við vinnslu hans. Þær aðferðir ættu
jafnframt að geta nýst við gerð samskonar merkingargagnagrunna
fyrir önnur tungumál.
Aætlað er að merkingarbrunnurinn muni innihalda um 134 þúsund
orð, 110.300 nafnorð, 6.300 sagnorð og 17.600 lýsingarorð. Þessar tölur
gætu þó hafa breyst fyrir fyrstu útgáfu. Nafnorð eru meginuppistaðan
í merkingarbrunninum og miða flestar greiningaraðferðirnar við að
tengja nafnorð við önnur nafnorð en einungis að hluta til við sagnorð
eða lýsingarorð.
Rannsóknin skiptist í þrjá meginhluta: a) undirbúning gagna;
b) greiningu merkingarupplýsinga með mismunandi aðferðum; c)
samþættingu niðurstaðna úr öðrum hluta. Fyrstu tveimur liðunum
er lokið, búið er að greina mikinn fjölda merkingarvensla með mis-
munandi greiningaraðferðum en sfðasti hluti verkefnisins mun felast
í því að samþætta niðurstöðurnar og þannig að flokka vensl eftir
áreiðanleika, einræða orð og vensl og jafnvel bæta við venslum.
I þessari grein verður aðferðum sem notaðar hafa verið við grein-
inguna lýst, sem og fjallað um einstök merkingarvensl og formgerð
merkingarbrunnsins eins og hún er nú, fyrir samþættingu niður-
staðna.
Fyrsti kaflinn lýsir stuttlega þeim gögnum sem unnið var með og
tilreiðslu þeirra. Meginhluti greinarinnar fjallar um greiningu merk-
ingarvensla með mynsturgreiningu og greiningu merkingarupplýs-
inga með hjálp tölfræðiaðferða. Tölfræðiaðferðunum verður einungis
lýst á almennan hátt. Ahugasömum lesendum er bent á Manning &
Schutze (1999) þar sem er að finna nánari lýsingar og formúlur tengdar
tölfræðiaðferðunum. Síðasta aðferðin sem notuð er í frumgerðinni
byggist hvorttveggja í senn á mynsturgreiningu og tölfræði. I sjötta
kafla er sýnt dæmi um formgerð merkingarbrunnsins og borið saman
við dæmi úr öðru merkingarneti og að lokum verður fjallað stuttlega
um mat á niðurstöðum.