Orð og tunga - 01.06.2012, Qupperneq 45
Anna B. Nikulásdóttir: Tölvutækur merkingarbrunnur
35
rauninni tengd. I þessu ferli verða einnig möguleikar til einræðingar
kannaðir, meðal annars með því að athuga hvort þau orð sem tengjast
ákveðnu orði tilheyri mismunandi merkingarsviðum. Sem dæmi
má nefna að orð sem tengjast orðinu olía tengjast líka ýmist orðum
af merkingarsviðinu ,orka' (bensín, kol), ,matargerð' (panna, smjör),
,myndlist' (strigi, pensill) eða ,snyrting og vellíðan' (krem, nudd). Ut frá
þessu væri hægt að skilgreina fjórar merkingar orðsins olía og aðskilja
þær í gagnagrunninum.
Til þess að meta gæði sjálfvirku greiningarinnar og hvort samþætt-
ing niðurstaðna skilar árangri verður tilviljunarúrtak metið. Matið
verður í höndum meistaranema sem mun fara yfir úrtak úr niður-
stöðunum fyrir og eftir samþættingu.
Ohjákvæmilegt er að í niðurstöðum sjálfvirkrar greiningar, eins og
hér hefur verið lýst, leynist villur. Til þess að auðvelda vinnu við að
fara yfir gagnagrunninn handvirkt verður þróað notendaviðmót með
verkferlum til þess að bæta við, eyða út og leiðrétta vensl. Þess konar
leiðrétting mun vitanlega taka töluverðan tíma en vonast er til að
merkingarbrunnurinn nýtist frá upphafi þrátt fyrir að eitthvað verði
um villur. Tilraunir með tengingar við máltæknihugbúnað munu
leiða það í ljós.
8 Lokaorð
Islenskur merkingarbrunnur er tölvutækt merkingarnet sem unnið er
með sjálfvirkum aðferðum. Aðferðirnar byggjast á mynsturgreiningu
og tölfræði og miða að því að greina merkingarupplýsingar orða úr
stóru textasafni.
Niðurstöðurnar sýna fjölbreytt merkingarvensl og flokkun orða
eftir merkingarsviðum. Alls eru um 134 þúsund nafnorð, sagnorð
og lýsingarorð í merkingarbrunninum og vel á aðra milljón vensla.
Þessar tölur eru þó ekki endanlegar þar sem enn er unnið að síðasta
hluta verkefnisins, sem felst í því að samþætta niðurstöður einstakra
greiningaraðferða. Markmiðið er að kanna hvernig niðurstöður mis-
munandi aðferða styrðja eða hrekja einstök vensl og meta þannig
hvaða vensl eru líkleg til þess að vera rétt og hver síður. Einnig verða
möguleikar einræðingar kannaðir.
Þótt formgerð merkingarbrunnsins sé nokkuð önnur en formgerð
Princeton WordNet, er stefnt að því að gera tilraun með að tengja hluta