Orð og tunga - 01.06.2007, Page 87
Sigrún Helgadóttir: Mörkun íslensks texta
77
fræðilega mörkun. Þetta svið hefur því fengið mikla umfjöllun á und-
anförnum áratugum hjá þeim sem vinna við máltækni.
Vélrænar aðferðir við mörkun eru venjulega flokkaðar í tvo flokka,
regluaðferðir (e. rule based methods) og gagnaaðferðir (e. data-driven
methods). Fyrstu vélrænu aðferðirnar sem var beitt voru regluaðferðir.
Orðasafn var notað til þess að merkja sérhvert orð í texta með öll-
um hugsanlegum greiningarstrengjum. Síðan voru notaðar reglur til
þess að skera úr um hvaða greiningarstrengur væri réttur. Þessar regl-
ur voru byggðar á málfræði hvers tungumáls og venjulega samdar af
málfræðingum. Forrit sem notuðu reglurnar voru háð því tungumáli
sem reglurnar voru gerðar fyrir.
Gagnaaðferðir byggjast allar á því að nota textasafn sem hefur ver-
ið markað og mörkunin yfirfarin handvirkt þannig að hún sé eins rétt
og kostur er. Forrit er síðan látið læra af gögnunum á tiltekinn hátt. í
þeirri vinnu sem hér er greint frá voru gerðar tilraunir með þrjár mis-
munandi gagnaaðferðir: tölfræðilegar aðferðir, aðferð sem mætti kalla
leiðréttingaaðferð (e. transformation-based learning) og minnisaðferð (e.
memory-based method). Forrit eða kerfi sem nota fyrir fram greint texta-
safn til þess að læra af mætti kalla námfúsa markara. í greininni er sagt
frá tilraun til þess að láta fimm mismunandi námfúsa markara læra að
marka íslenskan texta. Tveir markaranna nota tölfræðilegar aðferðir,
tveir nota leiðréttingaaðferð og einn notar minnisaðferð. í 4. kafla er
gerð grein fyrir þessum aðferðum og forritum.
3 Efniviður
í þeirri vinnu sem hér er lýst var notað textasafn sem var gert fyr-
ir vinnslu íslenskrar orðtíðnibókar (Jörgen Pind, Stefán Briem og Frið-
rik Magnússon 1991) sem Orðabók Háskólans gaf út 1991. Vinna við
undirbúning textasafnsins hófst 1985 og er safninu lýst nákvæmlega í
formála Orðtíðnibókarinnar. í textasafninu eru brot úr 100 textum sem
voru gefnir út á tímabilinu 1980-1989, hvert með um 5.000 lesmálsorð-
um. Textarnir voru valdir úr 5 textaflokkum: íslenskum skáldverkum
(20 textar), þýddum skáldverkum (20 textar), ævisögum og minning-
um (20 textar), fræðslutextum (10 á sviði hugvísinda, 10 á sviði raun-
vísinda) og barna og unglingabókum (10 frumsamdir textar, 10 þýddir
textar).