Tölvumál - 01.02.2008, Page 62
6 2 | T Ö L V U M Á L
Inngangur
Máltækni (tungutækni) er rannsóknar og þróunarsvið sem hefur það að
markmiði að smíða kerfi sem geta unnið með og skilið náttúruleg tungumál
og stuðlað að notkun þeirra í samskiptum manns og tölvu. Í skýrslu, sem
unnin var fyrir menntamálaráðuneytið á árunum 1998–1999, var lagt til
að átak yrði gert til að efla máltækni á Íslandi enda væru Íslendingar að
dragast verulega aftur úr öðrum þjóðum á þessu sviði [1]. Sérstaklega var
hvatt til að útbúnar yrðu ýmiss konar máltæknieiningar fyrir íslenskan texta
í þeim tilgangi að auðvelda notkun íslensku í upplýsingatækniþjóðfélaginu.
Með máltæknieiningum er t.d. átt við málheildir (safn fjölbreyttra texta sem
geymdir eru á stöðluðu sniði á rafrænu formi) og tól sem greina texta af
ýmsu tagi. Safn máltæknieininga, þ.e. BLARK (e. Basic Language Resource
Kit), er nauðsynlegur grunnur undir frekari rannsóknir og þróun í máltækni
fyrir sérhvert tungumál [2].
Í þessari grein er tveimur máltæknieiningum lýst stuttlega, annars vegar
markara og hins vegar hlutaþáttara. Sérstaklega er fjallað um þær einingar
sem þróaðar voru í doktorsverkefni höfundar. Báðar einingarnar eru nú hluti
af BLARK fyrir íslensku.
Markari
Hlutverk markara (e. tagger) er að greina (marka) sérhvert orð í texta í
orðflokk og beygingarleg einkenni. Greiningarstrengurinn sem notaður er
nefnist mark og mengi mögulegra greiningarstrengja nefnist markamengi.
Möguleg mörk sérhvers orðs eru geymd í sérstöku orðasafni sem markarinn
notar. Orð geta því verið margræð (e. ambiguous), þ.e. geta átt sér fleira
en eitt mark, en aðeins eitt af mörkum markamengis á við sérhvert orð
í tilteknu samhengi. Markari eyðir margræðni og framkvæmir því í raun
svokallaða einræðingu (e. disambiguation).
Íslenska markamengið, sem var búið til samtímis vinnslu textasafns
Íslenskrar orðtíðnibókar [3], samanstendur af um 700 mögulegum mörkum.
Til samanburðar má nefna að eitt helsta markamengið fyrir ensku, Penn
TreeBank Tagset, samanstendur af aðeins 45 mörkum. Þennan mun má
að mestu leyti skýra með því að íslenskan er mun flóknara mál en enska
hvað beygingar varðar.
Hér fyrir neðan má sjá markaðan texta fyrir fyrstu setninguna í þessum
kafla (markið fyrir sérhvert orð er feitletrað):
Hlutverk nhen markara nkee er sfg3en að cn greina sng sérhvert foheo
orð nheo í aþ texta nkeþ í ao orðflokk nkeo og c beygingarleg lhfosf
einkenni nhfo
Sérhvert mark í íslenska markamenginu samanstendur af í mesta lagi
sex stöfum sem hver og einn hefur ákveðna merkingu. Fyrsti stafurinn
táknar orðflokkinn, t.d. n=nafnorð, s=sagnorð, f=fornafn, l=lýsingarorð,
c=samtenging og a=atviksorð/forsetning. Stafir í sætum 2–6 tákna
undirflokka og beygingarleg atriði. Lítum t.d. á mörkin foheo og sfg3en.
Í fyrra markinu er o= óákveðið fornafn, h=hvorugkyn, e=eintala og
o=nefnifall; í seinna markinu er f=framsöguháttur, g=germynd, 3=þriðja
persóna, e=eintala og n=nútíð.
Mörkurum er gjarnan skipt í tvo flokka. Annars vegar er um að ræða
svokallaða gagnamarkara, sem læra af fyrirfram markaðri málheild á
vélrænan hátt, og hins vegar svokallaða málfræðilega reglumarkara sem
nota handgerðar reglur til að framkvæma einræðingu. Með tilkomu markaðra
málheilda í ýmsum tungumálum hafa gagnamarkarar verið notaðir í ríkum
mæli undanfarin 10–15 ár. Gagnamarkarar safna upplýsingum á vélrænan
hátt sem síðar eru notaðar við einræðingu á nýjum texta. Upplýsingarnar
geta t.d. verið í formi tölfræði eða reglna. Um 90,4% nákvæmni (hlutfall
rétt markaðra orða af heildafjölda orða) hefur náðst við mörkun íslensks
texta með gagnamörkurum [4, 5] . Málfræðilegir reglumarkarar læra ekki
vélrænt af fyrirfram mörkuðum málheildum heldur byggja á handgerðum
reglum sem búnar eru til af sérfræðingum og þróaðar eru með hliðsjón af
mörkuðum texta.
Í þeim tilgangi að reyna að bæta nákvæmni í mörkun íslensks texta þá hefur
höfundur þróað málfræðilegan reglumarkara, IceTagger. Markarinn byggir
á smækkunaraðferð (e. reductionist approach), þ.e. mörk sem ekki eiga við
í tilteknu staðværu (e. local) samhengi eru fjarlægð í þeirri von að í lokin
standi eftir eitt rétt mark fyrir sérhvert orð. Jafnframt því að skoða staðvært
samhengi þá notar markarinn leitaraðferðir (e. heuristics) sem sjá til þess að
og hlutaþáttari
Markari
fyrir íslenskan texta
Dr. Hrafn Loftsson
lektor við tölvunarfræðideild Háskólans í Reykjavík