Orð og tunga - 01.06.2002, Síða 18
8
Orð og tunga
4 Lokaorð
Þegar mat er lagt á niðurstöður þessarar tilraunar verður að hafa í huga að hún var
takmörkuð á ýmsan hátt. Þar skiptir tvennt mestu máli. I fyrsta lagi var markarinn
eingöngu prófaður á sams konar textum og hann var þjálfaður á. Ef hann hefði verið
prófaður á annars konar textum hefði mátt búast við öðrum setningagerðum, öðrum
tilbrigðum í orðaröð o.s.frv., sem reglusafn markarans hefði e.t.v. ekki átt jafnvel við.
í öðru lagi voru engin óþekkt orð í prófunarsafninu, þ.e., engin orð sem ekki höfðu
komið fyrir í þjálfunarsafninu. Venjulega draga óþekkt orð nákvæmni markara dálítið
niður, því að engir giskarar eru fullkomnir.
En þrátt fyrir þetta, og enda þótt enn standi vissulega talsvert eftir af villum, teljum
við að góðir möguleikar séu á að ná betri árangri í greiningunni, enda eigum við enn
mörg tromp uppi í erminni. Meðal þess sem unnt er að gera til að bæta árangurinn er
að:
1. Stækka þjálfunarsafnið. Eins og áður segir nýtum við nú aðeins um 1/10 af
Orðtíðnibókinni sem þjálfunarsafn, en gætum nýtt allt að 9/10 (og afganginn þá
sem prófunarsafn). Því stærra sem þjálfunarsafnið er, þeim mun fleiri og betri
reglur verða til.
2. Fjölga sniðmátum og endurbæta þau. Eins og áður kom fram ákvarða sniðmátin
form reglnanna. Hér er hugsanlegt að fram komi munur á íslensku og ýmsum
öðrum málum. E.t.v. hafa beygingar í íslensku þau áhrif að þar þurfi að skoða
stærra umhverfi (t.d. þrjú orð á undan og eftir).
3. Einfalda greininguna. Greiningin í Orðtíðnibókinni er mun nákvæmari en venja
er við vélræna mörkun; greiningarstrengir eru alls 621. Með því að einfalda
greininguna er hægt að ná betri árangri; vega þarf og meta hversu mikilvæg
einstök greiningaratriði eru.
4. Lagfæra reglurnar eftir á. Forritið skilar út skrá um þær villur sem standa eftir í
prófunarsafninu, eftir að reglusafnið hefur verið keyrt á það. Með því að skoða
þessar villur má oft sjá regluleika sem forritið hefur ekki bundið í reglur af
einhverjum ástæðum, og búa slíkar reglur til handvirkt.
Þegar búið er að ná eins góðum niðurstöðum úr markaranum og mögulegt er, með því
að þjálfa hann á grunnskrám Orðtíðnibókarinnar, má byrja á að nota hann á ómarkaða
texta. Við vonumst til að komast upp í a.m.k. 95% rétta greiningu áður en yfir lýkur,
þótt við gerum okkur ljóst að það geti orðið erfitt. En niðurstaða í því máli fæst vonandi
á næsta ári.
Heimildir
Brill, Eric. 1995. Transformation-Based Error-Driven Learning and Natural Language
Processing; A Case Study in Part of Speech Tagging. Computational Linguistics
21: 543-566.