Orð og tunga - 01.06.2006, Blaðsíða 152
150
Orð og tunga
tryggja að sem flestir geti nýtt efnið þrátt fyrir að menn noti ólík-
ar tölvur og hugbúnað. Notuð verður XML-útgáfa af sniði fyrir mál-
heildir sem TEI-samtökin (TEI: Text Encoding Initiative) hafa skilgreint.
í þessu sniði er gert ráð fyrir að hverjum textabút fylgi haus þar sem
skráðar eru margvíslegar upplýsingar um textann, höfund hans o.fl.
Notendur málheildarinnar eru einstaklingar, fyrirtæki og stofnan-
ir sem vinna að orðabókargerð, margvíslegum tungutækniverkefnum
og rannsóknum á íslensku nútímamáli. Úr málheildinni má lesa ým-
iss konar gagnlegan fróðleik, t.d. upplýsingar um tíðni orðflokka, orða
og beygingarmynda, orðasambönd, setningargerð og merkingu. Mál-
heildir gefa einnig upplýsingar um hvernig tiltekið tungumál er not-
að á tilteknum tíma. Þær gefa vísbendingar um orðaforðann og einnig
um málfræðilega og setningarfræðilega þætti.
Mörkuð málheild er því undirstaða fyrir þróun þýðingarforrita og
mikilvæg fyrir nútíma orðabókargerð. Margir útgefendur orðabóka
byggja nú gerð orðabóka á stórum mörkuðum málheildum. Upplýs-
ingar sem fást úr markaðri málheild má einnig nota við gerð ýmissa
tungutæknitóla, t.d. fyrir talgreiningu og talgervingu. Einnig eru slík-
ar upplýsingar nauðsynlegar við þróun hjálparforrita með ritvinnslu,
t.d. forrita sem leiðbeina um stafsetningu og málfræði. Mörg tungu-
tæknitól af þessu tagi nýtast sérstaklega fyrir blinda, heyrnarskerta og
hreyfihamlaða og einnig þá sem glíma við skriftar- og lestrarörðug-
leika.
Gerður hefur verið samningur við menntamálaráðuneytið um að
Orðabók Háskólans visti málheildina og veiti aðgang að henni. Ráð-
gert er að málheildin verð til ráðstöfunar til rannsókna í tungutækni
og til þróunar tungutæknitóla. Einnig er stefnt að því að veita aðgang
að málheildinni á vefsetri Orðabókar Háskólans með sérstökum leit-
arhugbúnaði.
Til þess að unnt sé að hafa opinn aðgang að málheildinni er nauð-
synlegt að semja við rétthafa texta um hvernig birtingu skuli háttað.
í því sambandi skiptir höfuðmáli að engir textar verða birtir í heild
í málheildinni þannig að útilokað er að endurgera verk með textum
sem þar eru geymdir.
Ráðgert er að textabútar sem mynda málheildina verði sóttir í
textasafn Orðabókar Háskólans. í textasafninu eru textar af ýmsu tagi
og frá ýmsum tímum en tækifærið verður notað til þess að auka það.
Verkefnisstjóri í verkinu er Sigrún Helgadóttir. Verkefnisstjórn,