Orð og tunga - 01.06.2007, Blaðsíða 123
Erla Hallsteinsdóttir: íslenskur orðasjóður
113
höfundarréttar. Við Orðabók Háskólans er einnig verið að vinna að
markaðri íslenskri málheild (sbr. Sigrún Helgadóttir 2004).
Markmiðið með íslenskum orðasjóði er að veita aðgang að mál-
notkun í íslensku eins og hún er í dag í textum (hugsanlegur mögu-
leiki er að leyfa val á milli textategunda eftir uppruna textanna, t.d. úr
Morgunblaðinu, til að kynna sér málnotkun í þeim). Notkunargildi ís-
lensks orðasjóðs felst einkum í orðfræðilegum upplýsingum um notk-
un orða í textum; þessar upplýsingar eru skýrðar nánar í kafla 3.
Gagnagrunnurinn sem geymir textana er þannig byggður upp að ekki
er hægt að endurgera texta úr honum; þetta er nauðsynleg ráðstöfun
til að tryggja að farið sé eftir lögum um höfundarrétt.
íslenski textagrunnurinn verður hluti af fjölmála textagrunni á vef-
svæði þýska orðasjóðsins sem ætlaður er til notkunar í tungumála-
rannsóknum. Hugsanlegt er að nota þessa textagrunna meðal annars
við (sbr. Quasthoff, Richter og Biemann 2006):
• vinnu að einmála orðabókum,
• leit að svörum við málfræðilegum spurningum,
• tölfræðilega unninn samanburð á mismunandi tungumálum,
• gerð mállíkana, t.d. fyrir talgreiningu,
• rannsóknir á orðum sem haga sér tölfræðilega á líkan hátt,
• val á orðum í tilraunir, t.d. í sálfræðilegum málvísindum.
Þetta er ekki tæmandi listi, möguleikarnir eru margvíslegir, m.a. við
rannsóknir á tíðni, orðmyndun, merkingu og merkingarlegu umhverfi
orða. Dæmi um önnur áhugaverð rannsókna- og tungutækniverkefni
sem byggja á gögnum úr textagrunnum má finna í greinum Richt-
er, Quasthoff, Erla Hallsteinsdóttir og Biemann (2006) og Quasthoff,
Richter og Biemann (2006) um notkun textagrunna í tungumálarann-
sóknum.
Eins og áður var nefnt hefur þýski orðasjóðurinn verið notaður
sem grunnur í rannsókn á tíðni þýskra orðtaka. Niðurstöðurnar úr
þeirri rannsókn hafa þegar verið nýttar á margvíslegan hátt, m.a. við
að velja orðtök í þýsk-íslenskan orðtakagagnagrunn (sbr. Erla Hall-
steinsdóttir 2005, 2006b), við að velja þýsk orðtök í grunnorðaforða
þýsku sem erlends tungumáls (sbr. Erla Hallsteinsdóttir, Sajankova
legur ef unnt er að vinna rannsóknarvinnuna í húsakynnum Orðabókarinnar.