Ný saga - 01.01.2001, Blaðsíða 29
Sagnfræðin á hraðbraut veraldarvefsins
Að þessu sinni er ætlunin að færa öll íslensk
dagblöð og tímarit frá upphafi til 1920 á staf-
rænt form. Beita á svipaðri tækni og við
Sagnanelið og íslandskortin, en hugmyndin
er að mynda allar blaðsíðurnar þannig að not-
endur geti flett á Netinu rétt eins og um blöð-
in sjálf væri að ræða. Þessi aðferð hefur mikla
kosti, auðveldara verður að vitna til heimilda
og segja má að verið sé að færa örfilmusafn
Landsbókasafns á nýtt form. Verkefnið sem
er samnorrænt hlaut styrk frá Nordinfo og
RANNIS og er ætlunin að mynda um 200
þúsund blaðsíður, þar af um 160 þúsund úr
íslenskum blöðum og tímaritum, en einnig
verða blöð frá Færeyjum og Grænlandi mynd-
uð. Segja nrá að verkefninu svipi nokkuð til
Sagnanetsins en í þetta sinn ætl-ar Lands-
bókasafnið að bæta um betur því samhliða
ljósmyndun blaðanna verða myndirnar lesnar
með OCR (Optical Character Recognition)
en það er tækni sem gerir tölvum kleift að búa
til texta úr myndum af texta. Þannig verður
allur texti blaðanna geymdur í gagnagrunni
sem verður leitarbær. Hægt verður að leita í
blaðagrunninum eftir tilteknum blöðum, höf-
undum eða einstökum efnisorðum. í hádegis-
fyrirlestri á vegum Sagnfræðingafélags Is-
lands þann 3. apríl 2001 fjallaði Örn Hrafn-
kelsson sagnfræðingur og starfsmaður hand-
ritadeildar Landsbókasafnsins um verkefnið
og sýndi dæmi úr safninu. Notendaskilin virð-
ast einföld og myndirnar eru ákaflega góðar.
Hægt er að skoða þær með eða án bakgrunns
sem gerir þær miklu læsilegri. Eins og áður
sagði er verkefnið á byrjunarstigi svo ekki er
hægt að gera á því nákvænra úttekt en verk-
efnið lofar svo sannarlega góðu. í umræðum
eftir fyrirlestur Arnar kom fram að ætlunin er
að merkja textann nreð XML-vefmerkinga-
málinu og nota til þess hentuga staðla. Mikil-
vægt er að sú vinna verði ekki látin sitja á
hakanum því notagildi gagnagrunnsins verð-
ur mun meira ef staðlaðar aðferðir við merk-
ingar eru notaðar og vandað til verksins.
Fjölmargar erlendar heimildaútgáfur er að
finna á Netinu og má nel'na t.d. Project
Gutenberg. í netheimum er verkefnið æva-
gamalt en það hófst árið 1971 og markmiðið
er einfalt og skýrt: að gera texta aðgengilega
fyrir sem flesta. Aðferðin er einföld, efni er
fta tdt Vmh Píwi*m loolt Htlp
•^■8*1 - - J Ul r3 .$ tj gj ' jJ
Heimildir.is fl
allt í svokölluðu ASCII sniði sem þýðir í
raun einfaldasta útgáfa af textaformi sem
finnst. Það tryggir að 99% tölvunotenda geta
lesið skjölin. I The Avalon Project at the Yale
Law School er að finna mikið magn heimilda
urn bandaríska sögu, sögu milliríkjasamskipta
of fleira. Safnið er, líkt og Project Gutenberg,
einfalt í uppsetningu. Textarnir hafa verið
settir upp á venjulegar vefsíður. Því miður eru
leitarmöguleikar á vefnum slakir, en efnisyfir-
lit er gott. Flokkað er eftir tímabilum, höf-
undum og efnisorðum og velurinn er því að-
gengilegur. Á báðum þessum vefjurn er heim-
ildatilvísunum ábótavant. Ekki kemur fram
hvaðan textinn er fenginn og er það ákaflega
bagalegt. Það er lagadeild Yale háskóla sem
stendur að verkefninu og það ætli að vera
sæmileg trygging fyrir áreiðanlegum og rétt-
um texta, en eftir stendur að notendur eiga
afar erfitt með að ganga úr skugga urn að svo
sé. Vefurinn sýnir í hnotskurn hvað það er
mikilvægt að ganga vel frá tilvísunum og öðru
efni er varðar uppruna skjala og annarra
texta sem gefnir eru út á Netinu.
Rafbækur og útgáfa á vefnurn
Síðustu árin hafa rafbækur (ebooks) verið í
örri þróun. Þessar bækur eru ekki hefðbund-
in tölvuskjöl sem notendur geta breytt og lag-
Mynd 2.
Heimildir.is er vefur
Heimiidastofnunar.
Stofnunin hyggst
gera allar íslenskar
heimildir fyrir 1900
aðgengilegar á
Netinu.
Vefurinn sýnir í
hnotskurn hvað
það er mikilvægt
að ganga vel
frá tiivísunum
og öðru efni er
varðar uppruna
skjala og annarra
texta sem gefnir
eru út á Netinu
27