Íslenskt mál og almenn málfræði - 01.01.2001, Page 83
81
Tungumál, tölvur og tungutcekni
hætti; stflgildi orða; o. s. frv. í orðasöfnum af þessu tagi er líka nauð-
synlegt að setja allar upplýsingar fram á staðlaðan og samræmdan hátt
til að tölvur geti unnið með þær. Því getur þurft að koma upp ná-
kvæmu og flóknu flokkunarkerfi fyrir hinar ýmsu tegundir upplýsinga
sem þama verða að vera.4
Orðasöfn af þessu tagi hafa víða verið byggð upp eða eru í smíð-
um. Evrópusambandið hefur t.d. fjármagnað stór verkefni á þessu
sviði, s.s. PAROLE og LE-PAROLE (sjá http://www.ub.es/gilcub/
SIMPLE/simple.html). í Danmörku er nú unnið að stóru orðasafni til
uota í tungutækni, STO, eða SprogTeknologisk Ordbase (sjá Braasch
°-fl. 1998). Þetta er samvinnuverkefni ýmissa stofnana, stjómað af
Center for sprogteknologi í Kaupmannahöfn. í þessu safni eiga að
vera u.þ.b. 50 þúsund orð, þar af um 35 þúsund úr almennu máli og 15
þúsund íðorð af sex mismunandi sviðum. Merkingareiningar (d. se-
mantiske enheder) verða aftur á móti helmingi fleiri, eða um 100 þús-
und.5 Lögð er áhersla á hinn setningafræðilega þátt safnsins, þ. e. upp-
lýsingar um innbyrðis tengsl orðanna. Sá þáttur skiptir mjög miklu
uiáli fyrir hagnýtingu á ýmsum sviðum tungutækni, s. s. í forritum til
málfræðileiðréttingar og þýðingarforritum.
4 í lýsingu á STO-safninu danska sem sagt er frá hér á eftir segir: „En morfolog-
'sk enhed giver som minimum oplysning om opslagsordets stavning, bpjning, ord-
klasse og kpn (disse suppleres lpbende med orddannelsesoplysninger); en syntaktisk
enhed indeholder oplysninger om opslagsordets konstruktionspotentiale (funktionel
°g kategoriel valens, mm.), syntaktiske funktion i konstruktioner, brug af hjælpever-
bum osv. Endelig indeholder en semantisk enhed som minimum oplysning om
domæne. [...] Oplysningeme udtrykkes i attribut/værdi-par der er formaliserede i
koder; hver unik kombination af et sæt sammenhprende koder udgpr et mpnster
(http://cst.dk/sto/beskrivglsgstnodgl/index.htinl).
5 Hér má sjá dæmi úr setningafræðilegri lýsingu sagnarinnar vgnte í STO, þar sem
uPphafsstrengimir em „Mpnstre der angiver de forskellige konstmktionstyper
(http://cst.dk/sto/leksikalskindgang/index.html):
Dv2Pntis-paa (Han venter pá svar; Han venter pá at hun kommer)
Dv2Pnis-med (Han venter med at g0re arbejdet)
Dvlf (Hun venter sig)
Dv2N0 (Forældrene ventede det værste)
Dv2t (Jeg venter, at det kommer til at fungere)
Dv3fNP-af (Han venter sig meget af den nye medarbejder)