Bókasafnið - 01.06.2010, Blaðsíða 33
33
bókasafnið 34. árg. 2010
vefsafn.is
Íslenska vefsafnið, vefsafn.is, inniheldur vefsíður og önnur
gögn, sem birt eru eða gerð aðgengileg almenningi á hinum
íslenska hluta veraldarvefsins, þ.e. þjóðarléninu .is, svo og
efni sem birt er á öðrum lénum á íslensku eða af íslenskum
aðilum.
Lbs-Hbs hóf reglulega söfnun og varðveislu þessa efnis
haustið 2004 en það á sér langa forsögu því árið 1997 ákváðu
þjóðbókasöfn Norðurlanda að vinna saman að varðveislu
Veraldarvefsins til framtíðar. Það leiddi meðal annars til
þess að þegar lög um skylduskil til safna (nr. 20/2002) voru
endurskoðuð, var þess gætt að skilgreina hvernig háttað skuli
söfnun og varðveislu íslenskra vefsíðna. Í 8. gr. laganna er
kveðið á um að sá sem birtir verk á rafrænu formi á almennu
tölvuneti skuli veita móttökusafni aðgang að verkinu. Í 6. gr.
reglugerðar um skylduskil til safna nr. 982/2003 er svo tilgreint
að Lbs-Hbs sé móttökusafn þessa efnis og skuli jafnframt
varðveita það.
Árið 2003 gerðist safnið stofnaðili að alþjóðlegu samstarfi
IIPC – International Internet Preservation Consortium um
vefsöfnun. Þar er unnið að skilgreiningu á stöðlum um
vefsöfnun, þróun vefsafnara, gerð efnisyfirlits yfir vefsöfn og
gerð aðgangsforrita fyrir vefsöfn. Safnið hefur frá upphafi
átt sæti í stjórn samtakanna og lagt sitt af mörkum með
formennsku í vinnuhópum, hugmyndavinnu og vinnuframlagi
við þróun hugbúnaðar til vefsöfnunar sem kallast Heritrix.
Árlega eru gerðar þrjár heildarsafnanir af þjóðarléninu
.is á vegum Lbs-Hbs. Þessu má líkja við að tekin sé mynd af
íslenska vefnum eins og hann er hverju sinni. Til að ná betur til
þess efnis sem breytist mjög ört er jafnhliða heildarsöfnunum
stöðugt safnað sérstökum völdum vefsíðum sem geyma efni
sem telst áhugavert í þjóðfélagslegri umræðu. Þegar sérstakir
merkisviðburðir eiga sér stað í þjóðfélaginu, t.d. kosningar á
landsvísu er framkvæmd samfelld söfnun á lénum sem varða
slíka viðburði. Til viðbótar íslenska vefnum er einnig safnað
efni sem varðar Ísland eða Íslendinga og er til á öðrum lénum
en .is. Stöðugt er unnið að því að finna þessar síður og þær
sem taldar eru skipta máli eru afritaðar og settar í vefsafnið.
Vefsafnið var opnað 29. september 2009.
Nú eru í safninu um 16 terabyte af efni og um einn milljarður
URL-a eða vefslóða. Aðgangur er opinn öllum en þess er
gætt að það komi ekki niður á eða skaði hagsmuni þeirra
sem eiga efni á raunvefnum. Nú er hægt að fletta upp efni
eftir vefslóðum en unnið er að því að gera safnið leitarbært
í textaleit, að minnsta kosti að hluta. Efnið er vistað í tveimur
eintökum á seguldiskum og er annað eintakið vistað hjá Skýrr.
Einnig eru sett tvö afrit á segulbönd.
Þorsteinn Hallgrímsson
timarit.is
Á vefnum timarit.is er aðgengi að stafrænni endurgerð
prentaðra blaða og tímarita frá Íslandi, Færeyjum, Grænlandi,
Kanada og Danmörku. Nú eru um 10 ár síðan stafræn
myndun blaða og tímarita hófst í Lbs-Hbs í samvinnu við
Landsbókasöfnin í Færeyjum og Grænlandi. Örn Hrafnkelsson
sem var verkefnastjóri gerði ítarlega grein fyrir verkefninu í
grein í Bókasafninu árið 2003 og verður því ekki fjallað frekar
um upphaf og sögu þess hér.
Blöðin og tímaritin hafa að geyma, auk almenns fréttaefnis
og auglýsinga, mikið efni á sviði bókmennta, sagnfræði,
ættfræði, þjóðlífs, menningar, atvinnuvega og viðskipta.
Notendur geta leitað að efni á ýmsan hátt, svo sem eftir
löndum og titlum, eða að völdu orði í öllum texta ritanna.
Þeir geta einnig blaðað í gegnum efnið og prentað út valdar
blaðsíður. Jafnt og þétt bætast við safnið fleiri titlar frá öllum
þátttökuþjóðunum. Upphaflega var ákveðið að setja inn öll
íslensk tímarit fram til 1920, en það ártal var valið m.a. vegna
höfundaréttarmála. Síðan var samið við Árvakur hf. um að
mynda Morgunblaðið og 365 miðla ehf. um að mynda dagblöð
í þeirra eigu og í framhaldi fékk safnið styrk frá Alþingi til að
setja inn önnur íslensk dagblöð frá 20. öld. Þessum áföngum
báðum er nú nær lokið og í bígerð er að taka fyrir tímarit gefin
út 1920-1930. Þá hafa verið gerðir samningar við einstaka
útgefendur eða hagsmunaaðila sem vilja að þeirra efni verði
myndað og gert aðgengilegt á vefnum.
Vefurinn hefur gengið í gegnum nokkra þróun í áranna
rás og nýjustu gerð hans var hleypt af stokkunum síðla
hausts 2008. Unnið er að ljóslestri á texta ritanna eða OCR
lestri (Optical Character Reading) en þessi vinnsla hefur gert
innihald safnsins aðgengilegra þar sem nú er hægt að leita að
efni eða einstökum orðum í meginhluta textans. Þá er verið að
færa efnið í pdf-snið til að auðvelda notkun. Síðasta nýjungin
er leit að einstökum greinum eftir titli, höfundi og efnisorði.
Notaðar eru greinifærslur úr Gegni, en enn sem komið er
aðeins lítill hluti ritanna á vefnum greiniskráður. Jafnframt eru
tengingar úr Gegni í timarit.is.
Notkun á vefnum er geysimikil og er hann vinsælasti
vefur safnsins eins og sjá má á mynd 1. Það sýnir að hann er
auðveldur í notkun og hefur í raun gjörbreytt aðstæðum manna
í mörgum fræðigreinum, aðgengi þeirra að heimildum hefur
verið stórbætt. Mestur áhugi er á 20. aldar dagblöðunum enda
er það stærsti hluti efnisins. Því ætti það að vera fagnaðarefni
að myndun blaða frá þeirri öld er að ljúka og brátt verður
hægt að leita í texta þeirra allra. Í árslok 2009 voru um þrjár
og hálf milljón blaðsíðna komin inn á vefinn og heildarfjöldi
ljóslesinna blaðsíðna var um þrjár milljónir. Helstu tilvísanir á
vefinn eru frá Wikipediu og mbl.is.
Kristín Bragadóttir