Orð og tunga - 01.06.2007, Page 85
Sigrún Helgadóttir
Mörkun íslensks texta
1 Inngangur
í ýmsum tungutækniverkefnum1 þar sem unnið er úr texta er ávinn-
ingur að því að orð í textanum séu greind í orðflokka og beyging-
armyndir. Má þar nefna greiningu texta í setningahluta, orðtöku úr
texta fyrir gerð orðasafns, upplýsingaheimt, talkennsl, talgervingu,
vélrænar þýðingar, orðabókargerð, fyrirspurnarkerfi og leiðréttingar-
forrit. Einnig er nauðsynlegt að orð í texta séu greind eftir orðflokkum
og beygingu ef gera á tíðnikönnun á texta eins og þá sem birt er í
íslenskri orðtíðnibók (Jörgen Pind, Friðrik Magnússon og Stefán Briem
1991).
Starfshópur sem samdi skýrslu um tungutækni á vegum mennta-
málaráðuneytisins veturinn 1998-1999 (Rögnvaldur Ólafsson, Þorgeir
Sigurðsson og Eiríkur Rögnvaldsson 1999) lagði m.a. til að „unnið
verði að þróun málgreiningar fyrir íslensku, með það að markmiði að
geta greint íslenskan texta í orðflokka og setningarliði". í anda tillög-
unnar var gerð málfræðilegs markara fyrir íslensku eitt af þeim verk-
efnum sem var styrkt af tungutækniverkefni menntamálaráðuneytis-
ins2 í apríl 2002. Markmið verkefnisins var að finna aðferðir til þess að
'Orðið tungutækni er hér notað um það sem á ensku nefnist venjulega language
engineering. Einnig má nota orðið máltækni.
2Verktakar við verkið voru Málgreiningarhópurinn (Auður Þórunn Rögnvalds-
dóttir, Eiríkur Rögnvaldsson, Kristín Bjamadóttir og Sigrún Helgadóttir) og Orðabók
Háskólans. Verkefnisstjóri var Eiríkur Rögnvaldsson en Sigrún Helgadóttir mótaði
Orð og tunga 9 (2007), 75-107. © Orðabók Háskólans, Reykjavík.