Tölvumál


Tölvumál - 01.02.2008, Síða 62

Tölvumál - 01.02.2008, Síða 62
6 2 | T Ö L V U M Á L Inngangur Máltækni (tungutækni) er rannsóknar­ og þróunarsvið sem hefur það að markmiði að smíða kerfi sem geta unnið með og skilið náttúruleg tungumál og stuðlað að notkun þeirra í samskiptum manns og tölvu. Í skýrslu, sem unnin var fyrir menntamálaráðuneytið á árunum 1998–1999, var lagt til að átak yrði gert til að efla máltækni á Íslandi enda væru Íslendingar að dragast verulega aftur úr öðrum þjóðum á þessu sviði [1]. Sérstaklega var hvatt til að útbúnar yrðu ýmiss konar máltæknieiningar fyrir íslenskan texta í þeim tilgangi að auðvelda notkun íslensku í upplýsingatækniþjóðfélaginu. Með máltæknieiningum er t.d. átt við málheildir (safn fjölbreyttra texta sem geymdir eru á stöðluðu sniði á rafrænu formi) og tól sem greina texta af ýmsu tagi. Safn máltæknieininga, þ.e. BLARK (e. Basic Language Resource Kit), er nauðsynlegur grunnur undir frekari rannsóknir og þróun í máltækni fyrir sérhvert tungumál [2]. Í þessari grein er tveimur máltæknieiningum lýst stuttlega, annars vegar markara og hins vegar hlutaþáttara. Sérstaklega er fjallað um þær einingar sem þróaðar voru í doktorsverkefni höfundar. Báðar einingarnar eru nú hluti af BLARK fyrir íslensku. Markari Hlutverk markara (e. tagger) er að greina (marka) sérhvert orð í texta í orðflokk og beygingarleg einkenni. Greiningarstrengurinn sem notaður er nefnist mark og mengi mögulegra greiningarstrengja nefnist markamengi. Möguleg mörk sérhvers orðs eru geymd í sérstöku orðasafni sem markarinn notar. Orð geta því verið margræð (e. ambiguous), þ.e. geta átt sér fleira en eitt mark, en aðeins eitt af mörkum markamengis á við sérhvert orð í tilteknu samhengi. Markari eyðir margræðni og framkvæmir því í raun svokallaða einræðingu (e. disambiguation). Íslenska markamengið, sem var búið til samtímis vinnslu textasafns Íslenskrar orðtíðnibókar [3], samanstendur af um 700 mögulegum mörkum. Til samanburðar má nefna að eitt helsta markamengið fyrir ensku, Penn TreeBank Tagset, samanstendur af aðeins 45 mörkum. Þennan mun má að mestu leyti skýra með því að íslenskan er mun flóknara mál en enska hvað beygingar varðar. Hér fyrir neðan má sjá markaðan texta fyrir fyrstu setninguna í þessum kafla (markið fyrir sérhvert orð er feitletrað): Hlutverk nhen markara nkee er sfg3en að cn greina sng sérhvert foheo orð nheo í aþ texta nkeþ í ao orðflokk nkeo og c beygingarleg lhfosf einkenni nhfo Sérhvert mark í íslenska markamenginu samanstendur af í mesta lagi sex stöfum sem hver og einn hefur ákveðna merkingu. Fyrsti stafurinn táknar orðflokkinn, t.d. n=nafnorð, s=sagnorð, f=fornafn, l=lýsingarorð, c=samtenging og a=atviksorð/forsetning. Stafir í sætum 2–6 tákna undirflokka og beygingarleg atriði. Lítum t.d. á mörkin foheo og sfg3en. Í fyrra markinu er o= óákveðið fornafn, h=hvorugkyn, e=eintala og o=nefnifall; í seinna markinu er f=framsöguháttur, g=germynd, 3=þriðja persóna, e=eintala og n=nútíð. Mörkurum er gjarnan skipt í tvo flokka. Annars vegar er um að ræða svokallaða gagnamarkara, sem læra af fyrirfram markaðri málheild á vélrænan hátt, og hins vegar svokallaða málfræðilega reglumarkara sem nota handgerðar reglur til að framkvæma einræðingu. Með tilkomu markaðra málheilda í ýmsum tungumálum hafa gagnamarkarar verið notaðir í ríkum mæli undanfarin 10–15 ár. Gagnamarkarar safna upplýsingum á vélrænan hátt sem síðar eru notaðar við einræðingu á nýjum texta. Upplýsingarnar geta t.d. verið í formi tölfræði eða reglna. Um 90,4% nákvæmni (hlutfall rétt markaðra orða af heildafjölda orða) hefur náðst við mörkun íslensks texta með gagnamörkurum [4, 5] . Málfræðilegir reglumarkarar læra ekki vélrænt af fyrirfram mörkuðum málheildum heldur byggja á handgerðum reglum sem búnar eru til af sérfræðingum og þróaðar eru með hliðsjón af mörkuðum texta. Í þeim tilgangi að reyna að bæta nákvæmni í mörkun íslensks texta þá hefur höfundur þróað málfræðilegan reglumarkara, IceTagger. Markarinn byggir á smækkunaraðferð (e. reductionist approach), þ.e. mörk sem ekki eiga við í tilteknu staðværu (e. local) samhengi eru fjarlægð í þeirri von að í lokin standi eftir eitt rétt mark fyrir sérhvert orð. Jafnframt því að skoða staðvært samhengi þá notar markarinn leitaraðferðir (e. heuristics) sem sjá til þess að og hlutaþáttari Markari fyrir íslenskan texta Dr. Hrafn Loftsson lektor við tölvunarfræðideild Háskólans í Reykjavík
Síða 1
Síða 2
Síða 3
Síða 4
Síða 5
Síða 6
Síða 7
Síða 8
Síða 9
Síða 10
Síða 11
Síða 12
Síða 13
Síða 14
Síða 15
Síða 16
Síða 17
Síða 18
Síða 19
Síða 20
Síða 21
Síða 22
Síða 23
Síða 24
Síða 25
Síða 26
Síða 27
Síða 28
Síða 29
Síða 30
Síða 31
Síða 32
Síða 33
Síða 34
Síða 35
Síða 36
Síða 37
Síða 38
Síða 39
Síða 40
Síða 41
Síða 42
Síða 43
Síða 44
Síða 45
Síða 46
Síða 47
Síða 48
Síða 49
Síða 50
Síða 51
Síða 52
Síða 53
Síða 54
Síða 55
Síða 56
Síða 57
Síða 58
Síða 59
Síða 60
Síða 61
Síða 62
Síða 63
Síða 64
Síða 65
Síða 66
Síða 67
Síða 68
Síða 69
Síða 70
Síða 71
Síða 72
Síða 73
Síða 74
Síða 75
Síða 76
Síða 77
Síða 78
Síða 79
Síða 80
Síða 81
Síða 82
Síða 83
Síða 84

x

Tölvumál

Beinleiðis leinki

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Tölvumál
https://timarit.is/publication/239

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.