Tölvumál


Tölvumál - 01.02.2008, Page 62

Tölvumál - 01.02.2008, Page 62
6 2 | T Ö L V U M Á L Inngangur Máltækni (tungutækni) er rannsóknar­ og þróunarsvið sem hefur það að markmiði að smíða kerfi sem geta unnið með og skilið náttúruleg tungumál og stuðlað að notkun þeirra í samskiptum manns og tölvu. Í skýrslu, sem unnin var fyrir menntamálaráðuneytið á árunum 1998–1999, var lagt til að átak yrði gert til að efla máltækni á Íslandi enda væru Íslendingar að dragast verulega aftur úr öðrum þjóðum á þessu sviði [1]. Sérstaklega var hvatt til að útbúnar yrðu ýmiss konar máltæknieiningar fyrir íslenskan texta í þeim tilgangi að auðvelda notkun íslensku í upplýsingatækniþjóðfélaginu. Með máltæknieiningum er t.d. átt við málheildir (safn fjölbreyttra texta sem geymdir eru á stöðluðu sniði á rafrænu formi) og tól sem greina texta af ýmsu tagi. Safn máltæknieininga, þ.e. BLARK (e. Basic Language Resource Kit), er nauðsynlegur grunnur undir frekari rannsóknir og þróun í máltækni fyrir sérhvert tungumál [2]. Í þessari grein er tveimur máltæknieiningum lýst stuttlega, annars vegar markara og hins vegar hlutaþáttara. Sérstaklega er fjallað um þær einingar sem þróaðar voru í doktorsverkefni höfundar. Báðar einingarnar eru nú hluti af BLARK fyrir íslensku. Markari Hlutverk markara (e. tagger) er að greina (marka) sérhvert orð í texta í orðflokk og beygingarleg einkenni. Greiningarstrengurinn sem notaður er nefnist mark og mengi mögulegra greiningarstrengja nefnist markamengi. Möguleg mörk sérhvers orðs eru geymd í sérstöku orðasafni sem markarinn notar. Orð geta því verið margræð (e. ambiguous), þ.e. geta átt sér fleira en eitt mark, en aðeins eitt af mörkum markamengis á við sérhvert orð í tilteknu samhengi. Markari eyðir margræðni og framkvæmir því í raun svokallaða einræðingu (e. disambiguation). Íslenska markamengið, sem var búið til samtímis vinnslu textasafns Íslenskrar orðtíðnibókar [3], samanstendur af um 700 mögulegum mörkum. Til samanburðar má nefna að eitt helsta markamengið fyrir ensku, Penn TreeBank Tagset, samanstendur af aðeins 45 mörkum. Þennan mun má að mestu leyti skýra með því að íslenskan er mun flóknara mál en enska hvað beygingar varðar. Hér fyrir neðan má sjá markaðan texta fyrir fyrstu setninguna í þessum kafla (markið fyrir sérhvert orð er feitletrað): Hlutverk nhen markara nkee er sfg3en að cn greina sng sérhvert foheo orð nheo í aþ texta nkeþ í ao orðflokk nkeo og c beygingarleg lhfosf einkenni nhfo Sérhvert mark í íslenska markamenginu samanstendur af í mesta lagi sex stöfum sem hver og einn hefur ákveðna merkingu. Fyrsti stafurinn táknar orðflokkinn, t.d. n=nafnorð, s=sagnorð, f=fornafn, l=lýsingarorð, c=samtenging og a=atviksorð/forsetning. Stafir í sætum 2–6 tákna undirflokka og beygingarleg atriði. Lítum t.d. á mörkin foheo og sfg3en. Í fyrra markinu er o= óákveðið fornafn, h=hvorugkyn, e=eintala og o=nefnifall; í seinna markinu er f=framsöguháttur, g=germynd, 3=þriðja persóna, e=eintala og n=nútíð. Mörkurum er gjarnan skipt í tvo flokka. Annars vegar er um að ræða svokallaða gagnamarkara, sem læra af fyrirfram markaðri málheild á vélrænan hátt, og hins vegar svokallaða málfræðilega reglumarkara sem nota handgerðar reglur til að framkvæma einræðingu. Með tilkomu markaðra málheilda í ýmsum tungumálum hafa gagnamarkarar verið notaðir í ríkum mæli undanfarin 10–15 ár. Gagnamarkarar safna upplýsingum á vélrænan hátt sem síðar eru notaðar við einræðingu á nýjum texta. Upplýsingarnar geta t.d. verið í formi tölfræði eða reglna. Um 90,4% nákvæmni (hlutfall rétt markaðra orða af heildafjölda orða) hefur náðst við mörkun íslensks texta með gagnamörkurum [4, 5] . Málfræðilegir reglumarkarar læra ekki vélrænt af fyrirfram mörkuðum málheildum heldur byggja á handgerðum reglum sem búnar eru til af sérfræðingum og þróaðar eru með hliðsjón af mörkuðum texta. Í þeim tilgangi að reyna að bæta nákvæmni í mörkun íslensks texta þá hefur höfundur þróað málfræðilegan reglumarkara, IceTagger. Markarinn byggir á smækkunaraðferð (e. reductionist approach), þ.e. mörk sem ekki eiga við í tilteknu staðværu (e. local) samhengi eru fjarlægð í þeirri von að í lokin standi eftir eitt rétt mark fyrir sérhvert orð. Jafnframt því að skoða staðvært samhengi þá notar markarinn leitaraðferðir (e. heuristics) sem sjá til þess að og hlutaþáttari Markari fyrir íslenskan texta Dr. Hrafn Loftsson lektor við tölvunarfræðideild Háskólans í Reykjavík

x

Tölvumál

Direct Links

If you want to link to this newspaper/magazine, please use these links:

Link to this newspaper/magazine: Tölvumál
https://timarit.is/publication/239

Link to this issue:

Link to this page:

Link to this article:

Please do not link directly to images or PDFs on Timarit.is as such URLs may change without warning. Please use the URLs provided above for linking to the website.