Tölvumál - 01.10.2013, Side 35

Tölvumál - 01.10.2013, Side 35
35 þremur mörkuðum málheildum með íslenskri útgáfu af þessu leitarkerfi: málheild Íslenskrar orðtíðnibókar, MÍM og málheild með fornritum. Í fornritamálheildinni (Eiríkur Rögnvaldsson og Sigrún Helgadóttir 2011) eru textar úr 41 Íslendingasögu, Sturlungu, Heimskringlu og Landnámabók. Stafsetning hefur verið færð til nútímahorfs og nokkrar beygingarendingar eru færðar til nútímamáls. Einnig má sækja textana og nota þá við málrannsóknir og í máltækniverkefnum. Texta Íslenskrar orðtíðnibókar, GULL-staðalsins og Markaðrar íslenskrar málheildar má sækja með því að samþykkja sérstakt notkunarleyfi sem var búið til sérstaklega fyrir þá texta. Markaðir textar fornritanna eru hins vega aðgengilegir með því að samþykkja staðlað leyfi, CC BY 3.0. Sögulegur íslenskur trjábanki (Icelandic Parsed Historical Corpus – IcePaHC ) var eitt af þeim verkefnum sem var unnið sem hluti af verkefninu Hagkvæm máltækni utan ensku – íslenska tilraunin. Trjábankinn er safn þáttaðra (setningafræðilega greindra) texta. Í trjábankanum (Icelandic Parsed Historical Corpus – IcePaHC, http:// www.linguist.is/icelandic_treebank/Download) (Joel Wallenberg o.fl. 2011, Eiríkur Rögnvaldsson o.fl. 2012) er um 1 milljón orða af textum frá öllum málstigum íslensku. Elsti textinn er Fyrsta málfræðiritgerðin frá um 1150 og yngstu textarnir eru úr skáldsögunum Segðu mömmu að mér líði vel - saga um ástir eftir Guðmund Andra Thorssonar og Ofsa eftir Einar Kárason, báðar frá árinu 2008. Textabrotin hafa frá ríflega 3000 orðum upp í ríflega 25.000 orð. Á málfangasíðunni er aðgangur að fimm textasöfnum þar sem eru samstilltar texta- og hljóðskrár. Þessi söfn má m.a. nota við gerð talgreina. Hjal-málheildin (Helga Waage 2004) var notuð við gerð talgreinisins sem var styrktur af tungutækniverkefni menntamála- ráðuneytisins. Arnar Jensson gerði Jensson-, Þór- og RUV-málheildirnar sem hluta af doktorsverkefni sínu við japanskan háskóla (Arnar Jensson o.fl. 2008). Einnig eru aðgengilegar skrár með umrituðum ræðum frá Alþingi, alls um 21 klukkustund. Í tengslum við Hjal-verkefnið var einnig gerð framburðarorðabók. Framburðarorðabókin er aðgengileg í Excel-skjali þar sem eru milli 50 og 60 þúsund hljóðritaðar orðmyndir. Orðmyndirnar voru bæði hljóðritaðar samkvæmt SAMPA- (http://www.phon.ucl.ac.uk/home/ sampa/) og IPA-stöðlum (http://www.langsci.ucl.ac.uk/ipa/). Fyrir utan framburðaorðabókina er aðgangur að 8 málföngum sem má flokka sem nokkurs konar orðasöfn eða orðabækur. Á málfangasíðunni er tengill á Beygingarlýsingu íslensks nútímamáls, BÍN, (Kristín Bjarnadóttir 2012) sem var eitt af fyrstu máltækniverkefnum sem unnið var að á Orðabók Háskólans. Stöðugt er unnið við að bæta BÍN sem nú hefur um 270.000 beygingardæmi með ríflega 5,8 milljónum beygingardæma. Uppflettiaðgangur að BÍN nýtist öllum sem vilja kynna sér beygingu einstakra orða og gögnin sem einnig má sækja eru nýtt í margvísleg máltækniverkefni. Sem hluti af META-NORD verkefninu var aflað leyfa frá rétthöfum 41 orðasafns í Íðorðabankanum (http://www.ordabanki.hi.is/wordbank/ search) til þess að hafa orðasöfnin aðgengileg til notkunar í máltækniverkefnum. Þessi orðasöfn eru aðgengileg í TBX-sniði (http:// www.tbxconvert.gevterm.net/) á málfangasíðunni. Orðasöfn í TBX-sniði má nota í sumum þýðingaminnum (e. translation memories). Eitt af orðasöfnunum í þessum pakka er 5. útgáfa Tölvuorðasafns. En það má einnig sækja á síðu Tölvuorðasafnsins á vefsetri Skýrslutæknifélagsins (http://sky.is/). Í nóvember 2011 var opnaður aðgangur að veforðabókinni ISLEX (http://islex.lexis.hi.is/islex/) þar sem íslenska er viðfangsmálið og markmálin eru danska, sænska og norska, bæði bókmál og nýnorska. ISLEX er samstarfsverkefni fjögurra stofnana á Íslandi, í Svíþjóð, Noregi og Danmörku. Þær eru Stofnun Árna Magnússonar í íslenskum fræðum í Reykjavík, Det Danske Sprog- og Litteraturselskab í Kaupmannahöfn, Institutt for lingvistiske, litterære og estetiske studier við Háskólann í Bergen og Institutionen för svenska språket við Háskólann í Gautaborg. Gert var samkomulag við þessar stofnanir um að gagnasafn orðabókarinnar yrði aðgengilegt fyrir notkun í máltækniverkefnum. Efnið var flutt í LMF-snið (http://www.lexicalmarkupframework.org/) sem er staðlað snið fyrir orðabókagögn. Við hvert uppflettiorð í ISLEX- orðabókinni er gefinn framburður í formi hljóðskrár. Um er að ræða tæplega 49.000 orð og auk þess rúmlega 700 orðasambönd (t.d. sjá aumur á honum, eiga í brösum við hana). Hljóðskrárnar eru aðgengilegar á málfangasíðunni. Á málfangasíðunni eru tenglar á fleiri verkefni þar sem er aðgangur að gagnlegum orðasöfnum eins og Íslenskum merkingarbrunni (MerkOr, http://merkor.skerpa.com/MerkorApplication), Íslensku orðaneti (http:// ordanet.is/), Hugtakasafni utanríkisráðuneytisins (http://www. hugtakasafn.utn.stjr.is/) og IceWordNet sem er frumgerð að íslenskri útgáfu af kjarnalista Princeton WordNet (Princeton Core WordNet, http://wordnetcode.princeton.edu/standoff-files/core-wordnet.txt). Lesendur Tölvumála eru hvattir til þess að kynna sér þessi margvíslegu málföng sem nú er greiður aðgangur að í gegnum síðuna http://www. málföng.is/. Heimildir: Arnar Thor Jensson, Koji Iwano og Sadaoki Furui. (2008). Language model adaptation using machine-translated text for resource-deficient languages. Eurasip Journal on Audio, Speech, and Music Processing, 2008. Article ID 573832. Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series. s. 63–76. Springer, Berlín. Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. Sögulegi íslenski trjábankinn. Gripla 23:331-352. Erla Hallsteinsdóttir, Thomas. Eckart, Chris Biemann, og Matthias. Richter. 2007. Íslenskur orðasjóður – Building a Large Icelandic Corpus. In Proceedings of the 16th Nordic Conference of Computational Linguistics (NoDaLiDa 2007), Tartu, Estonia. Verena Henrich, Timo Reuter og Hrafn Loftsson. 2009. CombiTagger: A System for Developing Combined Taggers. In Proceedings of the 22nd International FLAIRS Conference, Special Track: „Applied Natural Language Processing“. Sanibel Island, Florida, USA. © 2009 AAAI. Helga Waage. 2004. Hjal – gerð íslensks stakorðagreinis. Samspil tungu og tækni. Menntamálaráðuneytið, Reykjavík. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: A Natural Language Processing Toolkit for Icelandic. Í Proceedings of InterSpeech 2007, Special session: „Speech and language technology for less- resourced languages“. Antwerp, Belgium. Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. In Proceedings of „Creation and use of basic lexical resources for less-resourced languages“, workshop at the 7th International Conference on Language Resources and Evaluation (LREC 2010). Valetta, Malta. Jörgen Pind, Friðrik Magnússon, og Stefán Briem. 1991. Íslensk orðtíðnibók. Orðabók Háskálans, Reykjavik. Kristín Bjarnadóttir. 2012. The Database of Modern Icelandic Inflection. Í Proceedings of the SaLTMiL-AfLaT Workshop „Language Tecnology for normalisation of less-resourced languages“„, 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbúl, Tyrklandi. Martha Dís Brandt, Hrafn Loftsson, Hlynur Sigurþórsson og Francis M. Tyers. 2011. Apertium-IceNLP: A rule-based Icelandic to English machine translation system. Í Proceedings of the 15th Annual Conference of the European Association for Machine Translation (EAMT-2011). Leuven, Belgium. Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Í Proceedings of the SaLTMiL-AfLaT Workshop „Language Tecnology for normalisation of less-resourced languages“„, 8th International Conference on Language Resources and Evaluation (LREC 2012). Istanbúl, Tyrklandi. Sigrún Helgadóttir. 2013. Máltækni á Íslandi, vefútgáfa Tölvumála (http:// sky.is/) Joel C Wallenberg, Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur Rögnvaldsson. 2011. Icelandic Parsed Historical Corpus (IcePaHC). Version 0.9. http://www.linguist.is/icelandic_treebank

x

Tölvumál

Direkte link

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Tölvumál
https://timarit.is/publication/239

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.