Orð og tunga - 01.06.2002, Qupperneq 15
Eiríkur Rögnvaldsson o.fi.: Vélræn málfræðigreining með námfúsum markara
5
hann á að bregðast við slíkum aðstæðum; hvernig hann getur farið að því að taka annan
strenginn fram yfir hinn.
3.2 Tilraun með mörkun íslensks texta
Við tókum nú sýnishorn af Orðtíðnibókinni, tæp 60 þúsund orð, og meðhöndluðum
þau eins og lýst er hér að framan. Þjálfunarsafnið var tæplega 48 þúsund orð, en
prófunarsafnið 11923 orð. Þar af höfðu 9478, eða 79,5%, aðeins einn greiningarstreng,
en hjá afgangnum, 2445 orðum, var viðbótarstrengurinn sem keyrður hafði verið inn í
skrána annar en hinn rétti greiningarstrengur. Eitt dæmi um það er sýnt hér:
(6) wd(38, 'til' ) .
tag('ae','ae',38).
wd (3 9, 'enda') .
tag('c','nkee',3 9) .
Hér hefur orðmyndin enda fengið viðbótarstrenginn c, þ.e. samtenging, vegna þess að
það er algengasta greining þeirrar orðmyndar í Orðtíðnibókinni (189 dæmi). Samhengið
sýnir hins vegar ljóslega að rétta greiningin er hér nkee, þ.e. no., kk„ et„ ef. (en sá
greiningarstrengur á aðeins 7 sinnum við þessa orðmynd í Orðtíðnibókinni).
(7)
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:A>B <-
tag:C@ [-1] .
tag: C@ [1] .
tag:C@[-1,-2].
tag:C@[-1,-2,-3].
tag:C@[-l] & tag:D@[l].
tag: C@ [-1] & tag:D@[-2] .
tag:C@[-l] & tag:D@[-2] & tag:E@[-3].
tag:C@[1,2].
tag:C@[-1] & tag:D@[1,2].
wd:C@[0].
wd:C@[1].
wd: C@ [-1] .
wd:C@[0] & wd:D@[-1].
wd:C@[0] & tag:D@[-l] .
wd:C@[0] Sc tag:D@[l].
wd:C@[-l, -2] .
wd:C@[0] & wd:D@[-1] & wd:E@[-2].
í (7) sjáum við svo þau sniðmát sem við notuðum. Þau eru alls 17; níu af þeim vísa
eingöngu til marka, þ.e. málfræðilegrar greiningar orðanna í kring, sex vísa eingöngu
til orða, en tvö vísa bæði til marka og orða. Mínus á undan tölu táknar að vísað er
til undanfarandi orðs eða marks, en sé enginn mínus er vísað til eftirfarandi orðs eða
marks, nema hvað 0 vísar til orðsins sjálfs. Komma á milli talna táknar ‘annaðhvort’,
en & táknar ‘hvorttveggja’.
Eftir að aukagreiningarstreng hafði verið bætt inn í textann voru 79,5% orðanna í
prófunarsafninu með ótvíræða greininingu, þannig að algengasta greining þeirra orð-
mynda, sem bætt var inn, var hin sama og rétta greiningin, sem fyrir var. Eftir að /i-tbl
forritið hafði verið keyrt þrisvar á þjálfunarsafnið og lært alls 609 reglur var það keyrt