Orð og tunga - 01.06.2012, Page 33
Anna B. Niknlásdóttir: Tölvutækur merkingarbrunnur
23
(2) NPU such as {NP,, NP,..., (and I or)| NPn 5
Mynstrið í (2) er dæmi um orða- og setningahlutamynstur (e. lcxico-
syntactic pattern) sem hægt er að nýta til þess að greina yfirheitavensl
í textum. Fyrir hvert mynstur er skrifuð regla sem segir til um hvaða
orð í birtingarmyndum mynstranna á að skrá og hvaða vensl gilda
milli þeirra. Reglan tengd mynstrinu í (2) hljóðar þannig: NP0 er
yfirheiti NP^ til og með NPn. Þetta mynstur og fleiri mynstur sem
Hearst kynnti í sinni grein hafa þá eiginleika að vera áreiðanleg en að
vera jafnframt sjaldgæf í textum. Það er því einungis hægt að búast
við að greina takmarkaðan fjölda af merkingarvenslum með þessari
aðferð, jafnvel úr stórum textasöfnum.
Við þróun merkingarbrunnsins var mynstraaðferðinni beitt á
nokkuð annan hátt. Markmiðið var að finna sem flest mynstur sem
mögulega gæfu einhvers konar merkingarvensl til kynna, án þess að
skilgreina fyrirfram hvaða vensl ætti að greina. I stað þess að nota orð
sem vitað er að standa í ákveðnum venslum til þess að finna mynstur
í textunum (eins og England og country í dæminu hér að ofan, e.
seed-words) var hlutaþáttað textasafn greint með tilliti til nafnliða og
forsetningarliða. Hvert mynstur er samsett úr nafnliðum eða nafn-
lið(um) og forsetningarlið(um). Allar birtingarmyndir mynstranna
voru vistaðar í gagnagrunni og þau mynstur sem komu minnst tíu
sinnum fyrir í textasafninu voru rannsökuð sérstaklega. Mynstrin
voru merkt eftir því hvort þau sýndust almennt innihalda merkingar-
lega tengd orð eða ekki og þá af hvaða tagi venslin voru. Dæmi:
(3) Gilt mynstur: [NP nheng][PP í aþ [NP nkeþg]]6
Birtingarmynd: [NP lánið nheng][PP í aþ [NPbankanum
nkeþg]]
Vensl: lán - í - banki
(4) Ógilt mynstur: [NP feveo [AP lveoof] nveo]]
Birtingarmynd: [NP mína feveo [AP eigin lveoof] lopa-
pcysu nveo]]
_________Engin vensl
5 NP: nafnliður
6 Markastrengir IceTagger samsvara að mestu mörkunum sem notuð eru í Islenskri
orðtíðnibók (Jörgen Pind o.fl. 1991). Þannig merkir ,nheng' nafnorð í hvorugkyni,
eintölu, nefnifalli með greini og ,aþ' atviksorð eða forsetningu sem stýrir þágufalli.
Nákvæman lista er að finna í skjölun IceNLP. Við mynsturgreininguna var ekki
tekið tillit til kyns orða.