Orð og tunga - 01.06.2016, Page 147
Ingibjörg Elsa Björnsdóttir: Vélþýðingar á íslensku 137
bæta dæmavélþýðingarkerfi með mjög stóran gagnagrunn við aðra
teg und af þýðingarkerfi, svo sem tölfræðilegt vélþýðingarkerfi eða
vél þýðingarkerfi með regluaðferð.
4 Saga íslenska Apertium-kerfisins
Martha Dís Brandt, meistaranemi við Háskólann í Reykjavík, tók þátt
í að þróa frumgerð af Apertium-kerfinu sem hafði það að markmiði
að þýða á milli íslensku og ensku. Notuð voru máltæknitól sem þeg-
ar voru til í IceNLP-safni máltæknitóla sem dr. Hrafn Loftsson og
Hlynur Sigurþórsson höfðu þróað. Laga þurfti IceNLP-máltæknitólin
að Apertium-kerfinu og voru IceNLP-tólin gerð að opnum hugbúnaði
til þess að hægt væri að setja þau sem einingar inn í Apertium-flæð ið.
Dr. Francis Tyers setti upp umgjörð fyrir þrjár fyrstu íslensku orða-
bækurnar og tók þátt í mótun og gerð flutningsreglna fyrir íslensku.
Eiríkur Rögnvaldsson prófessor hefur einnig tekið þátt í verkefninu
af hálfu Háskóla Íslands. Martha Dís Brandt leiðrétti síðan meira en
5000 færslur í íslensku tvímála Apertium-orðabókinni og bætti um
19.400 færslum við tvímála orðabókina. Einnig bætti hún við flutn-
ings reglum og lagfærði kerfið að öðru leyti (Martha Dís Brandt
2011:1–2). Auk þess var búið til textasafn úr um 188.000 línum úr
íslensku Wikipediu. Síðan voru gæði Apertium metin og reyndist
villutíðni (e. word error rate, WER) 50,60% og villutíðni óháð stöðu (e.
position-independent word error rate, PER) 40,78% (Martha Dís Brandt
2011:2). Þetta er nokkuð hærri tíðni en hjá Google translate eða Tungu-
torgi, vélþýðingarkerfi sem eðlisfræðingurinn Stefán Briem þróaði
(tungutorg.is).
5 Apertium-vélþýðingarkerfið
5.1 Almennt um Apertium-kerfið og tæknina sem það
notar
Apertium er opið grunnstætt (e. shallow transfer) vélþýðingarkerfi sem
hefur reynst mjög gagnlegt fyrir smærri málsamfélög. Þýðingarkerfið
var upphaflega þróað á Spáni úr tveimur kerfum, interNOSTRUM
og traductor.universia.net, sem voru þróuð í Háskólanum í Alicante
tunga_18.indb 137 11.3.2016 14:41:19