Orð og tunga - 01.06.2007, Page 91
Sigrún Helgadóttir: Mörkun íslensks texta
81
ir endingar, einn fyrir orð sem hefjast á lágstaf og einn fyrir orð sem
hefjast á hástaf.
TnT er beitt á nýtt mál eða nýtt svið í tveimur þrepum:
1. Líkan er búið til
2. Texti er markaður
Líkanið er búið til út frá þjálfunarsafninu. Tvær skrár verða til í því
skrefi: skrá með tíðni orða og marka sem þau geta fengið og skrá með
tíðni tveggja eða þriggja marka sem standa saman. Þessar skrár eru
síðan notaðar þegar forritið markar nýjan texta. Forritið gefur einnig
kost á að nota viðbótarorðasafn. Finnist orð ekki í orðasafninu, sem
var búið til þegar líkanið var gert, er leitað að því í viðbótarorðasafn-
inu.
4.2 Hámarksóreiðuaðferð
í þessum flokki var valinn markarinn MXPOST (Ratnaparkhi 1996). í
Ratnaparkhi (1997) er inngangur að því hvernig hámarksóreiðulíkön
(e. Maximum Entropy Models) eru notuð við málgreiningu. Ratnapark-
hi segir þar að mörg málgreiningarverkefni megi endurskilgreina sem
tölfræðileg flokkunarverkefni. Verkefnið felst í því að meta líkur á að
flokkur a komi fyrir í „samhenginu" b, eða p(a,b). I málgreiningarverk-
efnum eru orð venjulega hluti af „samhenginu". I sumum verkefnum
er „samhengið" aðeins eitt orð en í öðrum getur b verið nokkur orð og
greiningarstrengir þeirra. í stórum textasöfnum fæst nokkur vitneskja
um hvenær a og b koma fyrir saman. En ekkert textasafn hefur nægi-
legar upplýsingar til þess gefa upplýsingar um p(a,b) fyrir öll hugsan-
leg pör (a,b) þar sem orðin í b eru sjaldgæf. Vandamálið snýst um að
meta á öruggan hátt líkindalíkanið p(a,b) með því að nota ófullkomnar
upplýsingar um a-in og b-in.
Þjálfunarsafninu er lýst sem miklum fjölda af sérkennaþáttum (e.
features). Þessir sérkennaþættir eru tvígild föll af „sögum" (e. histor-
ies) (samhengi orða og greiningarstrengja) og greiningarstrengjum. í
útgáfu Ratnaparkhis eru sérkennaþættir orðið sem verið er að fjalla
um, næstu tvö orð á undan, næstu tvö orð á eftir og greiningarstreng-
ur (mark) næstu tveggja orða á undan. Sérkennaþættir sjaldgæfra og
óþekktra orða (koma ekki fyrir í þjálfunarsafni) hafa einnig fyrstu og
síðustu fjóra stafi orðs og upplýsingar um hvort orðið hafi hástaf,
bandstrik eða tölustaf. Sérkennaþættir óþekktra orða eru búnir til úr