Orð og tunga - 01.06.2016, Page 149
Ingibjörg Elsa Björnsdóttir: Vélþýðingar á íslensku 139
Einingar Apertium-kerfisins eru eftirfarandi (sjá Forcada o.fl. 2010:6–
10):
• Eining sem fjarlægir snið textans og aðgreinir sjálfan textann
frá upplýsingum um snið (HTML o.s.frv.).
• Eining sem greinir myndön á yfirborði (e. surface form) text-
ans og skilar af sér fyrir hverja einingu einni eða fleiri orða-
safns myndum sem samanstanda af flettu, orðflokki og upp-
lýs ingum um beygingu.
• Orðhlutamarkari (e. part-of-speech tagger) framkvæmir eina af
greiningunum á tvíræðum orðum eftir því í hvaða samhengi
orðið stendur. Hann notar svokallað falið Markovslíkan.
• Flutningseining orðasafna les orðasafnsmyndir frummálsins
og skilar viðeigandi orðasafnsmynd í markmálinu. Við þetta
not ar einingin tvímála orðabók. Sú eining, sem flytur form-
gerð ir, sækir orðin í orðabókina.
• Flutningseining sem vinnur með orðasambönd og orðaröð.
• Orðhlutaeining sem framkallar rétta beygingu í markmáli á
yfir borði, úr uppflettimynd.
• Eftirvinnslueining sem lagfærir stafsetningu í markmálinu.
• Eining sem gefur skjalinu aftur upprunalegt snið.
Apertium-kerfið þarf að hafa tiltæka einmála orðabók uppruna-
tungu málsins fyrir sérhvert tungumálapar. Þessi einmála orðabók
er notuð af einingunni sem greinir myndön. Tvímála orðabók, sem
nær til upprunamálsins og markmálsins, er notuð af flutningseiningu
orða safna og að lokum er einmála orðabók markmálsins notuð af
ein ing unni sem setur saman setningarnar. Í kerfinu notar flutn ings-
ein ing flutningsreglur (sjá Mörthu Dísi Brandt, Hrafn Loftsson, Hlyn
Sig ur þórs son og Tyers 2011:2).
Kostir Apertium-kerfisins eru fjölmargir enda er kerfið einfalt
bæði í notkun og þróun. Hönnun þess byggist að mestu á einföldum
og þekktum forsendum Unix-kerfa. Apertium nær þýðingarhraða
sem nemur um 10.000 orðum á sekúndu á venjulegum fartölvum.
Tækn in þarf því ekki stór gagnaver (Forcada o.fl. 2009:4). Af ein-
ing um Apertium-kerfisins er einingin, sem greinir myndön, e.t.v.
mikil vægust af því að hún getur ekki einungis nýst til vélþýðinga
held ur einnig í WordNet-viðmóti þar sem hægt er t.d. að búast við
tunga_18.indb 139 11.3.2016 14:41:19