Orð og tunga - 01.06.2002, Blaðsíða 14
4
Orð og tunga
markara og fengið reynslu af því að endurbæta reglusafn hans. Að fenginni þeirri
reynslu töldum við einboðið að athuga hvort hann gæti nýst við mörkun á íslenskum
textum.
Svo heppilega vill til að til er stórt og gott íslenskt þjálfunarsafn. Það eru grunn-
skrárnar úr vinnslu íslenskrar orðtíðnibókar, sem Orðabók Háskólans gaf út 1991.
Ritstjóri bókarinnar var Jörgen Pind, en Stefán Briem sá um vélræna málfræðigrein-
ingu og Friðrik Magnússon um handvirka greiningu.
Form skránna er sýnt í (5). Fremst er greiningarstrengur sem inniheldur upplýsingar
um orðflokk og öll beygingarleg atriði. Strengurinn n k e n g fyrir framan hvolpurinn
merkir þannig nafnorð, karlkyn, eintala, nefnifall, greinir.
(5)
f p k e n
s f g 3 e þ o
n h e o
a o
n k e o
c
n k e n g
n k e n - m
s f g 3 e þ
n v e n
hann
átti
afmæli
I
dag
°g
hvolpurinn
Vaskur
var
afmælisgjöf
hann
eiga
afmæli
í
dagur
°g
hvolpur
Vaskur
vera
afmælisgjöf
Þessi greining var að nokkru leyti unnin vélrænt, en síðan var farið vandlega yfir hana
alla í höndunum og það á að vera hægt að treysta því að hún sé rétt. Þetta hráefni er
alls 500 þúsund orð (5000 orða bútar úr 100 textum, sem skiptast á fimm mismunandi
efnisflokka). Hér er því um að ræða mjög stórt og sérlega verðmætt þjálfunarsafn (til
samanburðar má nefna að þjálfunarsafnið í hinu norska taggerprosjekt var um 100
þúsund orð, og textarnir í því ekki sérstaklega valdir).
Greiningin í íslenskri orðtíðnibók er mjög nákvæm; það er notuð stór markaskrá
(e. tagset). T.d. er fallstjórn forsetninga og sagna greind sérstaklega; upplýsingar um
fallstjórn sagna birtast þó ekki í prentuðu bókinni. Alls kemur 621 mismunandi grein-
ingarstrengur fyrir í bókinni.
Byrjað var á að taka öll orðin í grunnskrám Orðtíðnibókarinnar og raða þeim í staf-
rófsröð. Mörg þeirra fá þá fleiri en einn greiningarstreng. Þá er algengasti strengurinn
tekinn og keyrður sem aukastrengur inn í markaða textann, á undan rétta greining-
arstrengnum. I mjög mörgum tilvikum verður aukastrengurinn sá sami og hinn rétti
greiningarstrengur sem orðið hefur fyrir. En það er auðvitað ekki alltaf sem algengasta
greiningin á við, og í þeim tilvikum verða greiningarstrengirnir tveir mismunandi. At-
hugið þó að alltaf er hægt að sjá hvor greiningin er rétt, vegna þess að upphaflegi (rétti)
strengurinn er aftast.
Það kann að virðast undarlegt að byrja á því að bæta röngum greiningum inn í
skrá sem er rétt greind. En þetta er nauðsynlegt til að markarinn geti lært reglur sem
endurskoða greiningu út frá umhverfi. Þegar hrár texti er markaður frá grunni þarf
að byrja á að keyra hann saman við orðasafn með beygingarlegum upplýsingum, eins
og áður var nefnt. Þegar um tvíræða orðmynd er að ræða fær hún þá í upphafi tvo
greiningarstrengi. Með þeirri aðferð sem lýst er hér að framan lærir inarkarinn hvernig