Tölvumál - 01.12.1997, Blaðsíða 17
TÖLVUMÁL
myndum sem innihalda mörg þús-
und möguleg afbrigði af ritun tölu-
og bókstafa. Innihald myndanna er
skráð í gagnagrunn, þ.e hvort
myndin innihaldi töluna „1“ eða
bókstafinn „a“. Myndgreiningin er
alltaf gerð á stafagrunni, þ.e skönn-
uð mynd er hlutuð niður þannig að
hver stafur sem greina á kemur
stakur inn í greininguna. Myndin
af stafnum er borin saman við safn-
ið á kerfisbundinn hátt þar til að
fullnægjandi samanburður fæst og
þar með er greiningunni lokið.
Þegar framkvæma á greiningu á
skönnuðum skjölum í Eyes and
Hands þarf að ganga í gegnum
ákveðin skref:
1. Fyrst verður að skilgreina í kerf-
inu eyðublaðið sem skanna skal.
Það er gert með því að nota skann-
aða mynd af auðu eyðublaði og
framkvæmdar ýmsar skilgreining-
ar á hana og nota þá mynd sem
eins konar „Master“. Mynd 4 sýnir
hvernig slíkar skilgreiningar geta
litið út. Skilgreina þarf sérstök
staðsetningarsvæði, 5 að lágmarki.
Þessi svæði notar kerfið til að snúa
myndinni þannig réttar staðsetn-
ingar náist á skjalinu. Þetta er
nauðsynlegt sökum þess að inn-
mötun skannanna er ekki nægilega
góð. Mikið er um að skjölin komi
ekki hornrétt inn á lessvæði skann-
ans sem leiðir af sér að mynd
skjalsins er hallandi. Að þessu
loknu eru greiningarsvæðin skil-
greind en það eru þeir reitir sem
innihalda stafi sem greina á. Þessi
svæði geta verið af nokkrum teg-
undum og verður að skilgreina það
sérstaklega. Nefna má t.d svæði
sem einvörðungu inniheldur tölu-
stafi, svæði fyrir bókstafi, svæði
sem getur innihaldið hvort tveggja
og svæði sem inniheldur krossa
(tick mark). Hjá ríkisskattstjóra er
greiningin að lang mestu leyti á
svæðum sem innihalda tölustafi.
Einnig má nefna svæði sem notuð
eru til að greina hvaða tegund af
eyðublaði myndin inniheldur. I
þessum skilgreiningarfasa er
einnig skilgreint hvernig færsla
gagnanna sem kemur frá greining-
unni á að líta út.
2. Greining er framkvæmd á mynd-
unum með þeirri skilgreiningu
sem framkvæmd var í lið 1. Þá fer
í gang samanburðarvinnslan sem
framkvæmir greininguna. Greini-
getan (e. „hit rate“), þ.e. það hlut-
fall stafa sem greinast ekki af fjölda
Mynd 4
DESEMBER 1997 -17