Bókasafnið - 01.01.2003, Síða 69
Þegar rit hefur verið skráð í bókfræðigrunn er það
tilbúið til myndatöku. í myndvinnslunni verður til ein
frummynd sem er á TIF-sniði (þar er myndin óþjöpp-
uð og ekkert hefur verið átt við hana og er hún n. k.
varðveislueintak í 300 punkta upplausn (dpi)). Þessu
næst er búin til mynd á DJVU-sniði en það er sérstak-
lega hannað til birtingar á myndum af textaskjölum á
Netinu. Það snið hefur reynst mjög vel og þá eru
myndirnar einnig mjög litlar - á bilinu 10 til 100 K -
sem þykir mjög meðfærilegt til notkunar. Búið er til
sérstakt myndasafn sem gagnagrunnur verkefnisins
vísar í.
Sá þáttur sem ekki má gleymast er að örfilman er
einnig viðurkenndur geymslumáti. Hægt er að prenta
allar stafrænar myndir á örfilmu og varðveita með
þeim hætti.
Greinaskráning
og efnisorð
Vinna við þennan þátt verkefnisins er enn á hug-
myndastigi en við vitum hvað við ætlum okkur að fá
út úr þessum verkþætti og hvers konar aðgengi skal
bjóða notendum upp á. Hér skal búa til leitarbært
efnisyfirlit yfir blöðin og tímaritin sem eru á Netinu.
Þá þarf í fyrsta lagi er að skrá nafn höfundar, ef það er
þekkt, þá titil greinar og gefa henni almennt efnisorð,
og hér verður byggt á mjög einföldum efnisorðalista.
Á þessu stigi verður ekki miklum tíma eytt í atriði
eins og það að finna út hver höfundurinn var. Er það
þessi Jón Jónsson eða hinn? Hugmyndin með efnis-
orðunum, sem verða einföld, er að geta tengt saman
skylt efni sem kann að vera í mörgum öðrum eintök-
um af sama blaði eða öðrum blöðum frá sama tíma.
Þá er einnig gert ráð fyrir að nota þær upplýsingar
sem eru núna í Greini, a. m. k. yfir það efni sem var
gefið út á 19. öld.
Eins og ég sagði hér að framan þá er þetta allt á
hugmyndastigi. Tvær mismunandi aðferðir koma til
greina við lausn þessa verkefnis. í fyrsta lagi að
greinaskrá blöðin og tímaritin með forritum ellegar
tólum sem vinna þetta á sjálfvirkan hátt eftir for-
skrift þar sem skimað er vélrænt yfir myndir af
blaðsíðunum og borin kennsl á eftir forskrift hvað er
t. d. fyrirsögn og hvað er nafn höfundar. Hér er unnið
út frá því að tólin læra að þekkja stílsnið blaðanna, þ.
e. með hvaða letri er t. d. fyrirsögn prentuð, nafn höf-
undar og millifyrirsagnir svo eitthvað sé nefnt. Þetta
er að nokkru leyti svipað því hvernig OCR-forritið
vinnur. Það sem tólin bera svo kennsl á er síðan
merkt með svokallaðri XML-merkingu og verður
komið fyrir í leitarbærum gagnagrunni þar sem hægt
verður að búa til aðgengilegt efnisyfirlit. í öðru lagi
kemur til greina að handmerkja nöfn og fyrirsagnir í
þeim texta sem verður til í OCR-vinnslunni (sjá hér
að neðan), ásamt því að gefa innihaldinu efnisorð.
Þessar merkingar verða með fyrrnefndri XML-merk-
ingu og þeim yrði svo varpað inn í gagnagrunninn
sem verður þá á sama hátt tengdur myndasafninu og
því hægt að stökkva þangað um leið þar sem þessi til-
tekna fyrirsögn kemur fyrir. Ávinningurinn af því að
búa til efnisyfirlit að blöðunum með þessum hætti er
sá að notendur geta betur kynnst efni þeirra blaða og
tímarita sem eru og verða í safninu.
Textavinnsla og tungutækni
Búið verður til stórt leitarbært textasafn og þannig
öðlast notendur ýtarlegri aðgang að efninu og þeir
geta leitað eftir ákveðnum orðum eða orðasambönd-
um. Gerðar hafa verið nokkrar tilraunir við að um-
breyta mynd í texta og lofa þær góðu. Niðurstöður
hafa stundum verið þær að textinn sem fenginn er
með OCR-forritinu er meira en 99% réttur. Fyrir þá
sem ekki þekkja hvernig OCR-forrit vinnur er það svo
í stuttu máli: Forritið ber kennsl á bókstafi á staf-
rænni mynd og lærir að þekkja þá og umbreytir þeim
síðan í tölvutækan texta. í upphafi verkefnisins urð-
um við að gera okkur grein fyrir því hvaða OCR-forrit
væru fær um að leysa þetta verk og vinna með ís-
lenska sérstafi, eins og þ og ð. Eftir tilraunir komumst
við að því að forrit sem heitir Fine Reader og er frá
Rússlandi reyndist best. Við höfum gert tilraunir með
nokkur blöð eins og Þjóðólf og Lanztíðindi. Öll blöð frá
þessum tíma eiga það sammerkt að vera vel prentuð
og pappírinn er í þokkalegu ástandi. Þetta forrit er
hægt að „þjálfa" til að þekkja íslenska stafi og síðan
hægt að keyra orðalista yfir þann texta sem út úr
þessu kemur og leiðrétta hann. Einnig er hægt að
nota það sem kallað hefur verið Fuzzy Search eða
moðleit til að leita í textanum og þá er mögulegt að fá
enn betri leitarniðurstöður.
Einn er þó sá þáttur sem kann að hafa áhrif á
þennan þátt verkefnisins og leitarniðurstöður not-
enda en það er hve margbreytileg íslenskan er. í
fyrsta lagi að hún er beygingarmál og það getur haft
áhrif á leitarniðurstöður því stafsetning t. d. nafnorða
getur verið mismunandi eftir því í hvaða falli þau eru
og hvort þau eru í eintölu eða fleirtölu. Öðru lagi
hefur að stafsetning breyst frá því á 18. öld - en elstu
tímaritin er frá þeim tíma - og fram á þá tuttugustu.
Það er þó hins vegar von okkar að allir þeir leitar-
möguleikar sem boðið er upp á komi til að gefa not-
endum raunhæfa niðurstöður og þeir finni það sem
þeir eru að leita að.
Virðisauki textans
Þegar tveir síðustu þættir verkefnisins, textaleit og
greinaskráning, hafa verið sameinaðir hafa notendur
aðgang að efni sem til þessa hefur verið þeim sem
lokuð bók. Hér erum við þá komin með í hendur
miklu verðmætari texta sem nýtist notendum við
hvers kyns rannsóknir og þeir fá aðgang að innihaldi
blaðanna.
BÓKASAFNIÐ 27. ÁRG. 2003
67