Orð og tunga - 01.06.2006, Blaðsíða 150
148
Orð og tunga
arverkinu og er nú unnið að því að móta fyrirkomulagið á þeim. Fram-
setning á setningarlegum upplýsingum er einnig í mótun. Þetta varðar
þætti eins og fallstjóm sagna og dæmigerð fylgiorð þeirra, svo dæmi
séu nefnd.
Greining og vinnsla efnisins er komin nokkuð á veg og í fyrsta
áfanga er lögð áhersla á frágang nafnorðanna.
Nú er hafin vinna við að bæta inn þýðingum á norsku, sænsku og
dönsku. Verið er að leggja á ráðin um skipulag þýðingarvinnunnar og
endanlega framsetningu markmálanna.
Þórdís Úlfarsdóttir
Mörkuð íslensk málheild
Á vegum Orðabókar Háskólans er nú unnið að gerð markaðrar ís-
lenskrar málheildar. Verkið er styrkt af tungutækniverkefni mennta-
málaráðuneytisins. Verkið hófst um mitt ár 2004 og skal því lokið árið
2007.
Með markaðri málheild (e. tagged corpus) er átt við safn fjölbreyttra
textabúta sem hafa verið greindir á málfræðilegan hátt. Málheildin er
geymd í rafrænu formi, venjulega í stöðluðu sniði. Hverjum textabút
fylgja upplýsingar um textann sem búturinn er úr og hverri orðmynd
fylgir nefnimynd (e. lemma) og greiningarstrengur, sem kallast mark
(e. tag) og sýnir orðflokk og málfræðilega greiningu orðsins. Nefni-
mynd nafnorða er nefnifall eintölu, nefnimynd fomafna er nefnifall
eintölu í karlkyni og nafnháttur er nefnimynd sagna. Taka má sem
dæmi setningarbrotið ég sagði. Nefnimynd persónufornafnsins ég er ég
og markið verður fplen, þar sem f táknar fomafn, p táknar persónu-
fornafn, 1 táknar fyrstu persónu, e táknar eintölu og n táknar nefni-
fall. Nefnimynd sagnarinnar sagði er segja og markið verður sfgleþ
þar sem s táknar sagnorð, f táknar framsöguhátt, g táknar germynd,
1 táknar fyrstu persónu, e táknar eintölu og þ táknar þátíð.
Valdir verða textar úr ritum sem gefin hafa verið út frá árinu 2000.
Stefnt er að því að um 60% textanna komi úr bókum, 25% úr blöðum
og tímaritum, 5-10% verði úr öðru útgefnu efni, 5-10% verði óútgefið
efni og minna en 5% verði efni sem er skrifað til upplestrar. Enn frem-
ur er stefnt að því að um 25% af textunum séu skáldverk og um 75%