Orð og tunga - 01.06.2007, Qupperneq 69
Eiríkur Rögnvaldsson: Textasöfn og setningagerð: greining og leit 59
aður okkar greini hana rangt eða alls ekki, hefur það þá ákaflega lítil
áhrif á heildarframmistöðu búnaðarins.
3 Leit að setningagerðum í textasöfnum
Það er til lítils að koma upp safni af textum úr töluðu og rituðu máli
ef ekki eru til aðferðir til að vinna úr þessum söfnum. Það þarf að vera
hægt að leita í þeim að dæmum um tilteknar setningagerðir. Við þá
leit má beita tveimur ólíkum aðferðum. Önnur er sú að lesa textana
frá upphafi til enda og skrá dæmi úr þeim. Ókostur aðferðarinnar er
vitanlega sá að hún er mjög seinleg, auk þess sem alltaf er hætta á að
dæmi fari fram hjá lesandanum. Til skamms tíma var þetta þó eina
aðferðin sem völ var á, en það hefur breyst á síðustu 20-25 árum með
tilkomu rafrænna texta. Það væri því mikill kostur ef hægt væri að
leita að dæmum á skipulegan hátt í tölvu. Bæði væri slík leit mjög
fljótleg, og eins ætti hún að geta verið tæmandi - sé leitað á réttan
hátt. Forsendur fyrir slíkri leit eru einkum tvær; að til séu tölvutækir
textar, og að þeir séu málfræðilega greindir á þann hátt að hægt sé að
leita að setningafræðilegum fyrirbærum.
í þessum kafla er fjallað um mismunandi aðferðir við setninga-
fræðilega dæmaleit í textum; frá einfaldri textaleit yfir í leit í beyg-
ingarlega mörkuðum textum, og að lokum um leit í setningafræðilega
mörkuðum textum. Sagt er frá nokkrum tilraunum sem ég hef gert til
að nýta beygingarlega mörkun í setningafræðilegum tilgangi og hafa
gefið góða raun.
3.1 Textaleit
Einfaldasta form leitar er það sem öll ritvinnsluforrit bjóða upp á;
að slá inn streng (eitt orð eða fleiri) og leita að honum, nákvæmlega
eins og hann er ritaður. Smávægileg tilbrigði eru möguleg (t.d. að til-
greina hvort hástafir og lágstafir skipta máli), og stundum er hægt
að nota algildisstafi (e. wildcard characters) til að leita að hvaða staf
sem er. í Word finnur bA?r til dæmis bar, ber, byr, bor, bær, býr o.s.frv.
í UNIX-stýrikerfinu er hægt að nota reglulegar segðir (e. regular ex-
pressions) við leitina og tilgreina þannig flókin leitarmynstur. Þannig
finnur [iy]n[gk][Ajiíeæ] strengina ing, yng, ink og ynk, en þó því aðeins
að enginn stafanna j, i, í, e, æ komi næst á eftir. Ýmis sérhæfð texta-