Tölvumál


Tölvumál - 01.02.2008, Blaðsíða 62

Tölvumál - 01.02.2008, Blaðsíða 62
6 2 | T Ö L V U M Á L Inngangur Máltækni (tungutækni) er rannsóknar­ og þróunarsvið sem hefur það að markmiði að smíða kerfi sem geta unnið með og skilið náttúruleg tungumál og stuðlað að notkun þeirra í samskiptum manns og tölvu. Í skýrslu, sem unnin var fyrir menntamálaráðuneytið á árunum 1998–1999, var lagt til að átak yrði gert til að efla máltækni á Íslandi enda væru Íslendingar að dragast verulega aftur úr öðrum þjóðum á þessu sviði [1]. Sérstaklega var hvatt til að útbúnar yrðu ýmiss konar máltæknieiningar fyrir íslenskan texta í þeim tilgangi að auðvelda notkun íslensku í upplýsingatækniþjóðfélaginu. Með máltæknieiningum er t.d. átt við málheildir (safn fjölbreyttra texta sem geymdir eru á stöðluðu sniði á rafrænu formi) og tól sem greina texta af ýmsu tagi. Safn máltæknieininga, þ.e. BLARK (e. Basic Language Resource Kit), er nauðsynlegur grunnur undir frekari rannsóknir og þróun í máltækni fyrir sérhvert tungumál [2]. Í þessari grein er tveimur máltæknieiningum lýst stuttlega, annars vegar markara og hins vegar hlutaþáttara. Sérstaklega er fjallað um þær einingar sem þróaðar voru í doktorsverkefni höfundar. Báðar einingarnar eru nú hluti af BLARK fyrir íslensku. Markari Hlutverk markara (e. tagger) er að greina (marka) sérhvert orð í texta í orðflokk og beygingarleg einkenni. Greiningarstrengurinn sem notaður er nefnist mark og mengi mögulegra greiningarstrengja nefnist markamengi. Möguleg mörk sérhvers orðs eru geymd í sérstöku orðasafni sem markarinn notar. Orð geta því verið margræð (e. ambiguous), þ.e. geta átt sér fleira en eitt mark, en aðeins eitt af mörkum markamengis á við sérhvert orð í tilteknu samhengi. Markari eyðir margræðni og framkvæmir því í raun svokallaða einræðingu (e. disambiguation). Íslenska markamengið, sem var búið til samtímis vinnslu textasafns Íslenskrar orðtíðnibókar [3], samanstendur af um 700 mögulegum mörkum. Til samanburðar má nefna að eitt helsta markamengið fyrir ensku, Penn TreeBank Tagset, samanstendur af aðeins 45 mörkum. Þennan mun má að mestu leyti skýra með því að íslenskan er mun flóknara mál en enska hvað beygingar varðar. Hér fyrir neðan má sjá markaðan texta fyrir fyrstu setninguna í þessum kafla (markið fyrir sérhvert orð er feitletrað): Hlutverk nhen markara nkee er sfg3en að cn greina sng sérhvert foheo orð nheo í aþ texta nkeþ í ao orðflokk nkeo og c beygingarleg lhfosf einkenni nhfo Sérhvert mark í íslenska markamenginu samanstendur af í mesta lagi sex stöfum sem hver og einn hefur ákveðna merkingu. Fyrsti stafurinn táknar orðflokkinn, t.d. n=nafnorð, s=sagnorð, f=fornafn, l=lýsingarorð, c=samtenging og a=atviksorð/forsetning. Stafir í sætum 2–6 tákna undirflokka og beygingarleg atriði. Lítum t.d. á mörkin foheo og sfg3en. Í fyrra markinu er o= óákveðið fornafn, h=hvorugkyn, e=eintala og o=nefnifall; í seinna markinu er f=framsöguháttur, g=germynd, 3=þriðja persóna, e=eintala og n=nútíð. Mörkurum er gjarnan skipt í tvo flokka. Annars vegar er um að ræða svokallaða gagnamarkara, sem læra af fyrirfram markaðri málheild á vélrænan hátt, og hins vegar svokallaða málfræðilega reglumarkara sem nota handgerðar reglur til að framkvæma einræðingu. Með tilkomu markaðra málheilda í ýmsum tungumálum hafa gagnamarkarar verið notaðir í ríkum mæli undanfarin 10–15 ár. Gagnamarkarar safna upplýsingum á vélrænan hátt sem síðar eru notaðar við einræðingu á nýjum texta. Upplýsingarnar geta t.d. verið í formi tölfræði eða reglna. Um 90,4% nákvæmni (hlutfall rétt markaðra orða af heildafjölda orða) hefur náðst við mörkun íslensks texta með gagnamörkurum [4, 5] . Málfræðilegir reglumarkarar læra ekki vélrænt af fyrirfram mörkuðum málheildum heldur byggja á handgerðum reglum sem búnar eru til af sérfræðingum og þróaðar eru með hliðsjón af mörkuðum texta. Í þeim tilgangi að reyna að bæta nákvæmni í mörkun íslensks texta þá hefur höfundur þróað málfræðilegan reglumarkara, IceTagger. Markarinn byggir á smækkunaraðferð (e. reductionist approach), þ.e. mörk sem ekki eiga við í tilteknu staðværu (e. local) samhengi eru fjarlægð í þeirri von að í lokin standi eftir eitt rétt mark fyrir sérhvert orð. Jafnframt því að skoða staðvært samhengi þá notar markarinn leitaraðferðir (e. heuristics) sem sjá til þess að og hlutaþáttari Markari fyrir íslenskan texta Dr. Hrafn Loftsson lektor við tölvunarfræðideild Háskólans í Reykjavík
Blaðsíða 1
Blaðsíða 2
Blaðsíða 3
Blaðsíða 4
Blaðsíða 5
Blaðsíða 6
Blaðsíða 7
Blaðsíða 8
Blaðsíða 9
Blaðsíða 10
Blaðsíða 11
Blaðsíða 12
Blaðsíða 13
Blaðsíða 14
Blaðsíða 15
Blaðsíða 16
Blaðsíða 17
Blaðsíða 18
Blaðsíða 19
Blaðsíða 20
Blaðsíða 21
Blaðsíða 22
Blaðsíða 23
Blaðsíða 24
Blaðsíða 25
Blaðsíða 26
Blaðsíða 27
Blaðsíða 28
Blaðsíða 29
Blaðsíða 30
Blaðsíða 31
Blaðsíða 32
Blaðsíða 33
Blaðsíða 34
Blaðsíða 35
Blaðsíða 36
Blaðsíða 37
Blaðsíða 38
Blaðsíða 39
Blaðsíða 40
Blaðsíða 41
Blaðsíða 42
Blaðsíða 43
Blaðsíða 44
Blaðsíða 45
Blaðsíða 46
Blaðsíða 47
Blaðsíða 48
Blaðsíða 49
Blaðsíða 50
Blaðsíða 51
Blaðsíða 52
Blaðsíða 53
Blaðsíða 54
Blaðsíða 55
Blaðsíða 56
Blaðsíða 57
Blaðsíða 58
Blaðsíða 59
Blaðsíða 60
Blaðsíða 61
Blaðsíða 62
Blaðsíða 63
Blaðsíða 64
Blaðsíða 65
Blaðsíða 66
Blaðsíða 67
Blaðsíða 68
Blaðsíða 69
Blaðsíða 70
Blaðsíða 71
Blaðsíða 72
Blaðsíða 73
Blaðsíða 74
Blaðsíða 75
Blaðsíða 76
Blaðsíða 77
Blaðsíða 78
Blaðsíða 79
Blaðsíða 80
Blaðsíða 81
Blaðsíða 82
Blaðsíða 83
Blaðsíða 84

x

Tölvumál

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Tölvumál
https://timarit.is/publication/239

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.