Tölvumál - 01.10.2013, Side 35
35
þremur mörkuðum málheildum með íslenskri útgáfu af þessu leitarkerfi:
málheild Íslenskrar orðtíðnibókar, MÍM og málheild með fornritum. Í
fornritamálheildinni (Eiríkur Rögnvaldsson og Sigrún Helgadóttir 2011)
eru textar úr 41 Íslendingasögu, Sturlungu, Heimskringlu og
Landnámabók. Stafsetning hefur verið færð til nútímahorfs og nokkrar
beygingarendingar eru færðar til nútímamáls. Einnig má sækja textana
og nota þá við málrannsóknir og í máltækniverkefnum. Texta Íslenskrar
orðtíðnibókar, GULL-staðalsins og Markaðrar íslenskrar málheildar má
sækja með því að samþykkja sérstakt notkunarleyfi sem var búið til
sérstaklega fyrir þá texta. Markaðir textar fornritanna eru hins vega
aðgengilegir með því að samþykkja staðlað leyfi, CC BY 3.0.
Sögulegur íslenskur trjábanki (Icelandic Parsed Historical Corpus –
IcePaHC ) var eitt af þeim verkefnum sem var unnið sem hluti af
verkefninu Hagkvæm máltækni utan ensku – íslenska tilraunin.
Trjábankinn er safn þáttaðra (setningafræðilega greindra) texta. Í
trjábankanum (Icelandic Parsed Historical Corpus – IcePaHC, http://
www.linguist.is/icelandic_treebank/Download) (Joel Wallenberg o.fl.
2011, Eiríkur Rögnvaldsson o.fl. 2012) er um 1 milljón orða af textum frá
öllum málstigum íslensku. Elsti textinn er Fyrsta málfræðiritgerðin frá um
1150 og yngstu textarnir eru úr skáldsögunum Segðu mömmu að mér
líði vel - saga um ástir eftir Guðmund Andra Thorssonar og Ofsa eftir
Einar Kárason, báðar frá árinu 2008. Textabrotin hafa frá ríflega 3000
orðum upp í ríflega 25.000 orð.
Á málfangasíðunni er aðgangur að fimm textasöfnum þar sem eru
samstilltar texta- og hljóðskrár. Þessi söfn má m.a. nota við gerð
talgreina. Hjal-málheildin (Helga Waage 2004) var notuð við gerð
talgreinisins sem var styrktur af tungutækniverkefni menntamála-
ráðuneytisins. Arnar Jensson gerði Jensson-, Þór- og RUV-málheildirnar
sem hluta af doktorsverkefni sínu við japanskan háskóla (Arnar Jensson
o.fl. 2008). Einnig eru aðgengilegar skrár með umrituðum ræðum frá
Alþingi, alls um 21 klukkustund.
Í tengslum við Hjal-verkefnið var einnig gerð framburðarorðabók.
Framburðarorðabókin er aðgengileg í Excel-skjali þar sem eru milli 50
og 60 þúsund hljóðritaðar orðmyndir. Orðmyndirnar voru bæði
hljóðritaðar samkvæmt SAMPA- (http://www.phon.ucl.ac.uk/home/
sampa/) og IPA-stöðlum (http://www.langsci.ucl.ac.uk/ipa/).
Fyrir utan framburðaorðabókina er aðgangur að 8 málföngum sem má
flokka sem nokkurs konar orðasöfn eða orðabækur. Á málfangasíðunni
er tengill á Beygingarlýsingu íslensks nútímamáls, BÍN, (Kristín
Bjarnadóttir 2012) sem var eitt af fyrstu máltækniverkefnum sem unnið
var að á Orðabók Háskólans. Stöðugt er unnið við að bæta BÍN sem nú
hefur um 270.000 beygingardæmi með ríflega 5,8 milljónum
beygingardæma. Uppflettiaðgangur að BÍN nýtist öllum sem vilja kynna
sér beygingu einstakra orða og gögnin sem einnig má sækja eru nýtt í
margvísleg máltækniverkefni.
Sem hluti af META-NORD verkefninu var aflað leyfa frá rétthöfum 41
orðasafns í Íðorðabankanum (http://www.ordabanki.hi.is/wordbank/
search) til þess að hafa orðasöfnin aðgengileg til notkunar í
máltækniverkefnum. Þessi orðasöfn eru aðgengileg í TBX-sniði (http://
www.tbxconvert.gevterm.net/) á málfangasíðunni. Orðasöfn í TBX-sniði
má nota í sumum þýðingaminnum (e. translation memories). Eitt af
orðasöfnunum í þessum pakka er 5. útgáfa Tölvuorðasafns. En það má
einnig sækja á síðu Tölvuorðasafnsins á vefsetri Skýrslutæknifélagsins
(http://sky.is/).
Í nóvember 2011 var opnaður aðgangur að veforðabókinni ISLEX
(http://islex.lexis.hi.is/islex/) þar sem íslenska er viðfangsmálið og
markmálin eru danska, sænska og norska, bæði bókmál og nýnorska.
ISLEX er samstarfsverkefni fjögurra stofnana á Íslandi, í Svíþjóð, Noregi
og Danmörku. Þær eru Stofnun Árna Magnússonar í íslenskum fræðum
í Reykjavík, Det Danske Sprog- og Litteraturselskab í Kaupmannahöfn,
Institutt for lingvistiske, litterære og estetiske studier við Háskólann í
Bergen og Institutionen för svenska språket við Háskólann í Gautaborg.
Gert var samkomulag við þessar stofnanir um að gagnasafn
orðabókarinnar yrði aðgengilegt fyrir notkun í máltækniverkefnum. Efnið
var flutt í LMF-snið (http://www.lexicalmarkupframework.org/) sem er
staðlað snið fyrir orðabókagögn. Við hvert uppflettiorð í ISLEX-
orðabókinni er gefinn framburður í formi hljóðskrár. Um er að ræða
tæplega 49.000 orð og auk þess rúmlega 700 orðasambönd (t.d. sjá
aumur á honum, eiga í brösum við hana). Hljóðskrárnar eru aðgengilegar
á málfangasíðunni.
Á málfangasíðunni eru tenglar á fleiri verkefni þar sem er aðgangur að
gagnlegum orðasöfnum eins og Íslenskum merkingarbrunni (MerkOr,
http://merkor.skerpa.com/MerkorApplication), Íslensku orðaneti (http://
ordanet.is/), Hugtakasafni utanríkisráðuneytisins (http://www.
hugtakasafn.utn.stjr.is/) og IceWordNet sem er frumgerð að íslenskri
útgáfu af kjarnalista Princeton WordNet (Princeton Core WordNet,
http://wordnetcode.princeton.edu/standoff-files/core-wordnet.txt).
Lesendur Tölvumála eru hvattir til þess að kynna sér þessi margvíslegu
málföng sem nú er greiður aðgangur að í gegnum síðuna http://www.
málföng.is/.
Heimildir:
Arnar Thor Jensson, Koji Iwano og Sadaoki Furui. (2008). Language
model adaptation using machine-translated text for resource-deficient
languages. Eurasip Journal on Audio, Speech, and Music Processing,
2008. Article ID 573832.
Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic
Tagging of Old Icelandic Texts and Its Use in Studying Syntactic
Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch
og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural
Heritage: Selected Papers from the LaTeCH Workshop Series. s. 63–76.
Springer, Berlín.
Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel
Wallenberg. 2012. Sögulegi íslenski trjábankinn. Gripla 23:331-352.
Erla Hallsteinsdóttir, Thomas. Eckart, Chris Biemann, og Matthias. Richter.
2007. Íslenskur orðasjóður – Building a Large Icelandic Corpus. In
Proceedings of the 16th Nordic Conference of Computational Linguistics
(NoDaLiDa 2007), Tartu, Estonia.
Verena Henrich, Timo Reuter og Hrafn Loftsson. 2009. CombiTagger: A
System for Developing Combined Taggers. In Proceedings of the 22nd
International FLAIRS Conference, Special Track: „Applied Natural
Language Processing“. Sanibel Island, Florida, USA. © 2009 AAAI.
Helga Waage. 2004. Hjal – gerð íslensks stakorðagreinis. Samspil tungu og
tækni. Menntamálaráðuneytið, Reykjavík.
Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural
Language Processing Toolkit for Icelandic. Í Proceedings of InterSpeech
2007, Special session: „Speech and language technology for less-
resourced languages“. Antwerp, Belgium.
Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur
Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing
tools. In Proceedings of „Creation and use of basic lexical resources for
less-resourced languages“, workshop at the 7th International Conference
on Language Resources and Evaluation (LREC 2010). Valetta, Malta.
Jörgen Pind, Friðrik Magnússon, og Stefán Briem. 1991. Íslensk
orðtíðnibók. Orðabók Háskálans, Reykjavik.
Kristín Bjarnadóttir. 2012. The Database of Modern Icelandic Inflection. Í
Proceedings of the SaLTMiL-AfLaT Workshop „Language Tecnology for
normalisation of less-resourced languages“„, 8th International
Conference on Language Resources and Evaluation (LREC 2012).
Istanbúl, Tyrklandi.
Martha Dís Brandt, Hrafn Loftsson, Hlynur Sigurþórsson og Francis M.
Tyers. 2011. Apertium-IceNLP: A rule-based Icelandic to English
machine translation system. Í Proceedings of the 15th Annual Conference
of the European Association for Machine Translation (EAMT-2011).
Leuven, Belgium.
Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín
Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus
(MÍM). Í Proceedings of the SaLTMiL-AfLaT Workshop „Language
Tecnology for normalisation of less-resourced languages“„, 8th
International Conference on Language Resources and Evaluation (LREC
2012). Istanbúl, Tyrklandi.
Sigrún Helgadóttir. 2013. Máltækni á Íslandi, vefútgáfa Tölvumála (http://
sky.is/)
Joel C Wallenberg, Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur
Rögnvaldsson. 2011. Icelandic Parsed Historical Corpus (IcePaHC).
Version 0.9. http://www.linguist.is/icelandic_treebank