Orð og tunga - 01.06.2012, Page 32
22
Orð og tunga
2 Gögn
Þær sjálfvirku aðferðir til greiningar merkingarupplýsinga sem notað-
ar voru byggjast á því að beita þeim á mikið magn texta. I fyrstu voru
aðferðir þróaðar og prófaðar á hluta Markaðrar íslenskrar málheildar
(MÍM) (Sigrún Helgadóttir 2004) en lokagreining var gerð á íslenskum
orðasjóði (Erla Hallsteinsdóttir et al. 2008), textasafni sem safnað var
af .is lénum frá árinu 2005, alls um 250 milljón orð. Textarnir voru
markaðir og hlutaþáttaðir með IceNLP tólinu3 4 (Hrafn Loftsson 2008,
Hrafn Loftsson og Eiríkur Rögnvaldsson 2007).
TextarafnetinuerumisjafniraðgæðumogOrðasjóðurinninniheldur
því töluvert af villum: stafsetningarvillum, innsláttarvillum o.fl. ásamt
ýmsum upphrópunum, „áherslustafsetningu" (t.d. rooooosalega) og
ad hoc orðmyndunum. Til þess að forðast það að slíkir strengir yrðu
vistaðir í merkingarbrunninum voru öll orð með mörkum borin
saman við gagnagrunn Beygingarlýsmgar íslensks nútímamáls (BlN)d
Orð sem höfðu sömu beygingarlýsingu í BIN og samkvæmt IceTagger
úr IceNLP voru lemmuð með viðeigandi uppflettiorði í BÍN. Þannig
er tryggt að öll orð í merkingarbrunninum séu gild íslensk orð, þó að
vissulega komi villur fyrir í lemmuninni.
3 Merkingarvensl og mynsturgreining
Þekkt aðferð til þess að greina merkingarvensl úr textum er að lita til
ákveðinna setningafræðilegra mynstra (sjá t.d. Hearst 1992 og Girju &
Badulescu 2006). Þessi aðferð hefur mér vitanlega þó ekki verið notuð
á íslenska texta, ef frá er talin greining merkingarvensla úr Islenskri
orðabók (Anna B. Nikulásdóttir 2007).
Aðferðin eins og hún var kynnt hjá Hearst byggist á því að með
hjálp orðapara sem standa í ákveðnum merkingarvenslum er leitað
að setningafræðilegum mynstrum í textum sem eru líkleg til þess
að vera lýsandi fyrir merkingarvenslin. Þannig voru til dæmis orðin
England og country notuð til þess að finna mynstur sem gefa til kynna
yfirheitavensl:
(1) Countries such as England, France and Spain
3 http://icenlp.sourceforge.net
4 http://bin.amastofnun.is