Tölvumál - 01.10.2013, Blaðsíða 34

Tölvumál - 01.10.2013, Blaðsíða 34
34 Í pistli sem birtist í vefútgáfu Tölvumála í ágúst 2013 (Sigrún Helgadóttir 2013) var greint í stórum dráttum frá vinnu við máltækni á Íslandi frá síðustu aldamótum. Sérstaklega var greint frá verkefninu META-NORD. Í tengslum við það verkefni var komið á fót sérstöku vefsetri http://www. málföng.is. Þar eru nú aðgengileg margvísleg málföng. Í tengslum við verkefnið voru einnig skráð lýsigögn um 23 málföng í sérstaka META- SHARE gagnahirslu (http://metashare.tilde.com/). Eins og greint var frá í vefgreininni er orðið málföng nýyrði, þýðing á enska heitinu language resources og er myndað með hliðsjón af orðunum tilföng og aðföng. Í þessari grein verður sagt frá helstu málföngum sem eru aðgengileg á http://www.málföng.is. Stór þáttur í starfi META-NORD hópsins fólst í að semja við rétthafa málfanga um að fá að skrá þau og með hvers konar skilmálum þau yrðu gerð aðgengileg. Einnig var lögð áhersla á að færa gögn í staðlað snið. Alls voru skráð 23 málföng í META-SHARE (http://metashare.tilde. com/) gagnahirsluna, 11 málheildir, 9 orðasöfn og 3 máltól. Ekkert af þessum málföngum er geymt í META-SHARE gagnahirslunni. Í staðinn eru gefnir tenglar á staði í netheimum þar sem gögnin eru geymd, oftast á málfangasíðuna. Mikilvægasta máltólið er IceNLP forritasamstæðan (Hrafn Loftsson og Eiríkur Rögnvaldsson 2007) fyrir greiningu íslensks texta. Í forritasamstæðunni eru einingar til þess að skipta texta í lesmálsorð og setningar, fyrir mörkun texta (e. part-of-speech tagging), til þess að finna nefnimyndir (e. lemmatising), fyrir þáttun (e. shallow parsing) og til þess að bera kennsl á sérnöfn. Þegar texti er markaður fá orðin mark sem er greiningarstrengur þar sem fram kemur orðflokkur og ýmsar beygingarmyndir. Nefnimyndir eru líka stundum kallaðar flettimyndir og eru t.d nefnifall eintölu fyrir nafnorð og nafnháttur sagna. Taka má sem dæmi setningarbrotið ég sagði. Nefnimynd fornafnsins ég er ég og markið verður fp1en, þar sem f táknar fornafn, p táknar persónufornafn, 1 táknar fyrstu persónu, e táknar eintölu og n táknar nefnifall. Nefnimynd sagnarinnar sagði er segja og markið verður sfg1eþ þar sem s táknar sagnorð, f táknar framsöguhátt, g táknar germynd, 1 táknar fyrstu persónu, e táknar eintölu og þ táknar þátíð. Með þáttun er greind formgerð setninga og tengsl einstakra hluta þeirra. Prófa má virkni forritanna (http://nlp.cs.ru.is/) og sækja þau á http://icenlp.sourceforge. net/ með því að samþykkja leyfið LGPL. Einnig má prófa og sækja grófþýðingarkerfið Apertium-is-en (Martha Dís Brandt o.fl. 2011) sem þýðir af íslensku á ensku. Þriðja máltólið er CombiTagger (Verena Heinrich o.fl. 2009) sem getur sameinað niðurstöðu úr tveimur eða fleiri flokkurum (t.d. mörkurum) með kosningu. Á málfangasíðunni er nú aðgangur að 6 málheildum með texta og 5 málheildum sem hafa bæði texta og tal. Stærsta textamálheildin er Íslenskur orðasjóður (http://wortschatz.uni-leipzig.de/ws_isl/) (Erla Hallsteinsdóttir o.fl. 2007) sem hefur að geyma um 500 milljónir lesmálsorða. Stærstu hlutar þeirrar málheildar er textar sem Landsbókasafn-Háskólabókasafn safnaði haustin 2005 og 2010 af lénum sem hafa veffang sem endar á .is. Textar í orðasjóðnum eru ekki markaðir. Hins vegar fylgir m.a. einmála orðasafn sem er búið til með sjálfvirkum aðferðum og listi yfir tíðni orða. Þessi málheild hefur þegar nýst fyrir ýmis verkefni, t.d. við gerð gagnagrunns fyrir merkingarvensl og við gerð forrits fyrir samhengisháða stafsetningarleiðréttingu fyrir íslensku og fyrir leiðréttingu á ljóslesnum textum úr gömlum blöðum og tímaritum. Elsta markaða málheildin er textasafn sem var gert vegna Íslenskrar orðtíðnibókar (Jörgen Pind o.fl. 1991) sem var gefin út árið 1991. Í textasafninu eru um 500.000 lesmálsorð úr 100 mismundandi textum sem voru gefnir út á áratugnum 1980–1989. Um 80% af textunum eru bókmenntatextar. Textarnir voru markaðir með sjálfvirkum aðferðum að hluta til og mörkunin var handleiðrétt. Þessi málheild hefur verið notuð til þess að þróa þá markara fyrir íslensku sem nú eru notaðir og einnig eina þáttarann sem hefur verið gerður. Í apríl 2013 var formlega opnaður aðgangur að Markaðri íslenskri málheild (MÍM) sem hefur að geyma um 25 milljónir lesmálsorða af fjölbreyttum textum sem voru ritaðir á árunum 2000–2010 (Sigrún Helgadóttir o.fl. 2012). Málheildin verður notuð bæði fyrir málfræðilegar rannsóknir og margvísleg máltækniverkefni. Um 88,5% af textum málheildarinnar er textar sem eru bundnir höfundarrétti. Afgangurinn er opinberir textar (ræður alþingismanna, textar laga og frumvarpa, dómar og reglugerðir o.þ.h.). Leitað var eftir samþykki allra rétthafa texta sem eru varðir af höfundarrétti til þess að hafa þá í málheildinni. Beðið var um leyfi fyrir tvenns konar not. Í fyrsta lagi er leyft að leita í textunum á vefsetri Stofnunar Árna Magnússonar í íslenskum fræðum (http://mim. arnastofnun.is/) og nýta í leitinni málfræðilegar upplýsingar sem felast í mörkunum. Í öðru lagi má sækja textana og nota þá fyrir rannsóknir og í máltækniverkefnum með því að samþykkja sérstakt notkunarleyfi. Aðalatriði notkunarleyfisins snúast um það að leyfishafi getið notað það sem hann lærir af málheildinni að vild. Leyfishafa er þó ekki heimilt að gefa út á prenti eða í rafrænu formi, birta, miðla til almennings eða hagnýta á annan hátt í atvinnu- eða hagnaðarskyni texta úr MÍM umfram það sem heimilað er í 14. gr. höfundalaga nr. 73/1972 og skal þá ætíð geta heimildar. Ekki er heldur leyfilegt að framselja notkunarleyfið til þriðja aðila. Textarnir í MÍM voru markaðir og fundnar nefnimyndir á vélrænan hátt. Textana ásamt lýsigögnum má sækja á málfangasíðuna í sérstöku XML-sniði sem hefur verið skilgreint fyrir málheildir (http:// www.tei-c.org/release/doc/tei-p5-doc/en/html/). Leitarviðmót málheildarinnar má nota m.a. í kennslu og gögnin hafa þegar verið notuð t.d. við gerð búnaðar fyrir leiðréttingu samhengisháðra stafsetningarvillna. GULL-staðall fyrir mörkun texta (Hrafn Loftsson o.fl. 2010) hefur að geyma úrtak úr MÍM með um einni milljón orða. Í þeirri útgáfu (0,9) sem er aðgengileg á málfangasíðunni þegar þetta er skrifað hafa mörk verið leiðrétt handvirkt af einum starfsmanni. Nú er unnið við að fara aftur yfir mörkin. Gull-staðallinn verður síðan notaður fyrir þróun markara og annarra máltæknitóla þar sem rétt mörkun og lemmun er nauðsynleg. Sett var upp sérstakt leitarviðmót fyrir markaðar málheildir á vefsetrinu http://mim.arnastofnun.is/ sem er líka aðgengilegt frá málfangasíðunni. Stuðst var við norskt leitarkerfi Glossa (http://www.hf.uio.no/iln/ tjenester/kunnskap/sprak/glossa/index.html) sem byggist á sérstöku leitarkerfi fyrir málheildir, IMS Coprus Workbench (http://www.ims.uni- stuttgart.de/forschung/projekte/CorpusWorkbench.html). Leita má í íSlenSk málföng Sigrún Helgadóttir, tölfræðingur, verkefnisstjóri á Stofnun Árna Magnússonar í íslenskum fræðum

x

Tölvumál

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Tölvumál
https://timarit.is/publication/239

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.