Tölvumál - 01.10.2013, Blaðsíða 34
34
Í pistli sem birtist í vefútgáfu Tölvumála í ágúst 2013 (Sigrún Helgadóttir
2013) var greint í stórum dráttum frá vinnu við máltækni á Íslandi frá
síðustu aldamótum. Sérstaklega var greint frá verkefninu META-NORD.
Í tengslum við það verkefni var komið á fót sérstöku vefsetri http://www.
málföng.is. Þar eru nú aðgengileg margvísleg málföng. Í tengslum við
verkefnið voru einnig skráð lýsigögn um 23 málföng í sérstaka META-
SHARE gagnahirslu (http://metashare.tilde.com/). Eins og greint var frá
í vefgreininni er orðið málföng nýyrði, þýðing á enska heitinu language
resources og er myndað með hliðsjón af orðunum tilföng og aðföng. Í
þessari grein verður sagt frá helstu málföngum sem eru aðgengileg á
http://www.málföng.is.
Stór þáttur í starfi META-NORD hópsins fólst í að semja við rétthafa
málfanga um að fá að skrá þau og með hvers konar skilmálum þau yrðu
gerð aðgengileg. Einnig var lögð áhersla á að færa gögn í staðlað snið.
Alls voru skráð 23 málföng í META-SHARE (http://metashare.tilde.
com/) gagnahirsluna, 11 málheildir, 9 orðasöfn og 3 máltól. Ekkert af
þessum málföngum er geymt í META-SHARE gagnahirslunni. Í staðinn
eru gefnir tenglar á staði í netheimum þar sem gögnin eru geymd, oftast
á málfangasíðuna.
Mikilvægasta máltólið er IceNLP forritasamstæðan (Hrafn Loftsson og
Eiríkur Rögnvaldsson 2007) fyrir greiningu íslensks texta. Í
forritasamstæðunni eru einingar til þess að skipta texta í lesmálsorð og
setningar, fyrir mörkun texta (e. part-of-speech tagging), til þess að
finna nefnimyndir (e. lemmatising), fyrir þáttun (e. shallow parsing) og til
þess að bera kennsl á sérnöfn. Þegar texti er markaður fá orðin mark
sem er greiningarstrengur þar sem fram kemur orðflokkur og ýmsar
beygingarmyndir. Nefnimyndir eru líka stundum kallaðar flettimyndir og
eru t.d nefnifall eintölu fyrir nafnorð og nafnháttur sagna. Taka má sem
dæmi setningarbrotið ég sagði. Nefnimynd fornafnsins ég er ég og
markið verður fp1en, þar sem f táknar fornafn, p táknar persónufornafn,
1 táknar fyrstu persónu, e táknar eintölu og n táknar nefnifall. Nefnimynd
sagnarinnar sagði er segja og markið verður sfg1eþ þar sem s táknar
sagnorð, f táknar framsöguhátt, g táknar germynd, 1 táknar fyrstu
persónu, e táknar eintölu og þ táknar þátíð. Með þáttun er greind
formgerð setninga og tengsl einstakra hluta þeirra. Prófa má virkni
forritanna (http://nlp.cs.ru.is/) og sækja þau á http://icenlp.sourceforge.
net/ með því að samþykkja leyfið LGPL. Einnig má prófa og sækja
grófþýðingarkerfið Apertium-is-en (Martha Dís Brandt o.fl. 2011) sem
þýðir af íslensku á ensku. Þriðja máltólið er CombiTagger (Verena
Heinrich o.fl. 2009) sem getur sameinað niðurstöðu úr tveimur eða fleiri
flokkurum (t.d. mörkurum) með kosningu.
Á málfangasíðunni er nú aðgangur að 6 málheildum með texta og 5
málheildum sem hafa bæði texta og tal. Stærsta textamálheildin er
Íslenskur orðasjóður (http://wortschatz.uni-leipzig.de/ws_isl/) (Erla
Hallsteinsdóttir o.fl. 2007) sem hefur að geyma um 500 milljónir
lesmálsorða. Stærstu hlutar þeirrar málheildar er textar sem
Landsbókasafn-Háskólabókasafn safnaði haustin 2005 og 2010 af
lénum sem hafa veffang sem endar á .is. Textar í orðasjóðnum eru ekki
markaðir. Hins vegar fylgir m.a. einmála orðasafn sem er búið til með
sjálfvirkum aðferðum og listi yfir tíðni orða. Þessi málheild hefur þegar
nýst fyrir ýmis verkefni, t.d. við gerð gagnagrunns fyrir merkingarvensl
og við gerð forrits fyrir samhengisháða stafsetningarleiðréttingu fyrir
íslensku og fyrir leiðréttingu á ljóslesnum textum úr gömlum blöðum og
tímaritum.
Elsta markaða málheildin er textasafn sem var gert vegna Íslenskrar
orðtíðnibókar (Jörgen Pind o.fl. 1991) sem var gefin út árið 1991. Í
textasafninu eru um 500.000 lesmálsorð úr 100 mismundandi textum
sem voru gefnir út á áratugnum 1980–1989. Um 80% af textunum eru
bókmenntatextar. Textarnir voru markaðir með sjálfvirkum aðferðum að
hluta til og mörkunin var handleiðrétt. Þessi málheild hefur verið notuð
til þess að þróa þá markara fyrir íslensku sem nú eru notaðir og einnig
eina þáttarann sem hefur verið gerður.
Í apríl 2013 var formlega opnaður aðgangur að Markaðri íslenskri
málheild (MÍM) sem hefur að geyma um 25 milljónir lesmálsorða af
fjölbreyttum textum sem voru ritaðir á árunum 2000–2010 (Sigrún
Helgadóttir o.fl. 2012). Málheildin verður notuð bæði fyrir málfræðilegar
rannsóknir og margvísleg máltækniverkefni. Um 88,5% af textum
málheildarinnar er textar sem eru bundnir höfundarrétti. Afgangurinn er
opinberir textar (ræður alþingismanna, textar laga og frumvarpa, dómar
og reglugerðir o.þ.h.). Leitað var eftir samþykki allra rétthafa texta sem
eru varðir af höfundarrétti til þess að hafa þá í málheildinni. Beðið var um
leyfi fyrir tvenns konar not. Í fyrsta lagi er leyft að leita í textunum á
vefsetri Stofnunar Árna Magnússonar í íslenskum fræðum (http://mim.
arnastofnun.is/) og nýta í leitinni málfræðilegar upplýsingar sem felast í
mörkunum. Í öðru lagi má sækja textana og nota þá fyrir rannsóknir og
í máltækniverkefnum með því að samþykkja sérstakt notkunarleyfi.
Aðalatriði notkunarleyfisins snúast um það að leyfishafi getið notað það
sem hann lærir af málheildinni að vild. Leyfishafa er þó ekki heimilt að
gefa út á prenti eða í rafrænu formi, birta, miðla til almennings eða
hagnýta á annan hátt í atvinnu- eða hagnaðarskyni texta úr MÍM umfram
það sem heimilað er í 14. gr. höfundalaga nr. 73/1972 og skal þá ætíð
geta heimildar. Ekki er heldur leyfilegt að framselja notkunarleyfið til
þriðja aðila. Textarnir í MÍM voru markaðir og fundnar nefnimyndir á
vélrænan hátt. Textana ásamt lýsigögnum má sækja á málfangasíðuna
í sérstöku XML-sniði sem hefur verið skilgreint fyrir málheildir (http://
www.tei-c.org/release/doc/tei-p5-doc/en/html/). Leitarviðmót
málheildarinnar má nota m.a. í kennslu og gögnin hafa þegar verið
notuð t.d. við gerð búnaðar fyrir leiðréttingu samhengisháðra
stafsetningarvillna.
GULL-staðall fyrir mörkun texta (Hrafn Loftsson o.fl. 2010) hefur að
geyma úrtak úr MÍM með um einni milljón orða. Í þeirri útgáfu (0,9) sem
er aðgengileg á málfangasíðunni þegar þetta er skrifað hafa mörk verið
leiðrétt handvirkt af einum starfsmanni. Nú er unnið við að fara aftur yfir
mörkin. Gull-staðallinn verður síðan notaður fyrir þróun markara og
annarra máltæknitóla þar sem rétt mörkun og lemmun er nauðsynleg.
Sett var upp sérstakt leitarviðmót fyrir markaðar málheildir á vefsetrinu
http://mim.arnastofnun.is/ sem er líka aðgengilegt frá málfangasíðunni.
Stuðst var við norskt leitarkerfi Glossa (http://www.hf.uio.no/iln/
tjenester/kunnskap/sprak/glossa/index.html) sem byggist á sérstöku
leitarkerfi fyrir málheildir, IMS Coprus Workbench (http://www.ims.uni-
stuttgart.de/forschung/projekte/CorpusWorkbench.html). Leita má í
íSlenSk málföng
Sigrún Helgadóttir, tölfræðingur, verkefnisstjóri á Stofnun Árna Magnússonar
í íslenskum fræðum