Orð og tunga - 01.06.2007, Síða 73
Eiríkur Rögnvaldsson: Textasöfn og setningagerð: greining og leit 63
(5) ég fplen stökk sfgleþ á aa eftir aþ strætó nkeþ og c veif-
aði sfgleþ,, vagnstjórinn nkeng sá sfg3eþ mig fpleo og
c stoppaði sfg3eþ. . ég fplen tautaði sfgleþ takk au og
c brosti sfgleþ til ae hans fpkee um ao leið nveo og c ég
fplen lét sfgleþ miðann nkeog detta sng. .
Á eftir hverju orði kemur mark þess eða greiningarstrengur. Hver
stafur í strengnum stendur fyrir eitt málfræðilegt atriði. Fyrsti stafur-
inn stendur alltaf fyrir orðflokk - / er fomafn, s er sögn, a er atviks-
orð/forsetning, n er nafnorð og c er samtenging. Aðrir stafir tákna síð-
an greiningarþætti orðflokkanna. í stökk táknar s þannig sögn,/fram-
söguhátt, g germynd, 11. persónu, e eintölu, og þ þátíð. í strætó táknar
n nafnorð, k karlkyn, e eintölu og þ þágufall. Þótt beygingarlega grein-
ingin taki eingöngu til eiginleika einstakra orða gefa greiningaratriðin
mjög oft vísbendingar um vensl orða í setningu; íslensku greiningar-
strengimir gefa miklu meiri setningafræðilegar upplýsingar en þeir
ensku t.d. Fallorð innan nafnliðar standa í sama kyni, tölu og falli;
frumlag stendur í nefnifalli (nema með skilgreindum hópi sagna) en
andlag í aukafalli; o.s.frv. Þess vegna kom sú hugmynd upp að athuga
hvort og þá að hvaða marki hægt væri að láta málfræðilegu greining-
una koma í stað setningafræðilegrar greiningar.
I dæminu hér að framan koma mörkin inn í textann og standa þar
eins og hver önnur orð. Það getur oft komið sér vel því að iðulega
er hægt að leita að tilteknum setningagerðum með því að tilgreina
einhvers konar samband af orðum og greiningarstrengjum.
Ég hef prófað að nota forrit sem heitir WinCord til að vinna með
þessa mörkuðu texta. Þetta er einfalt forrit sem hægt er að fá ókeyp-
is á netinu, er mjög þægilegt í notkun og hefur gagnast mér vel. En
vitanlega væri einnig hægt að nota fjölmörg önnur forrit af svipuðu
tagi, eða nota mynsturleit með reglulegum segðum í UNIX eða öðr-
um tólum. WinCord býður upp á samsetta leit (Advanced Word Search),
þar sem hægt er að slá orð inn í allt að fimm leitarreiti hvern á eftir
öðrum, eins og sýnt er hér á eftir. Hér nær 'orð' einnig yfir greiningar-
strengi, þar sem þeir koma inn í textann og forritið gerir engan mun á
þeim og venjulegum orðum.