Tķmarit.is   | Tķmarit.is |
Leita | Titlar | Greinar | Fréttir | Um vefinn | Algengar spurningar |
skrį inn | Íslenska | Føroyskt | Kalaallisut | Dansk | English |

Bókasafniš

PDF  | HQ_PDF  | TXT  |
Skoša ķ nżjum glugga:
PDF  | HQ_PDF  | TXT  |


Ašlaga hęš


žś žarft aš vera meš Adobe Reader Plugin til aš skoša žessa sķšu


get Adobe Reader



Bókasafniš

						Horft fram á við

Á næsta ári mun íslenska vefnum verða safnað tvisvar

til þrisvar sinnum. Væntanlega mun fyrsta umferðin

byrja í febrúar eða mars. Gert er ráð fyrir að gagna-

magn verði álíka mikið í hverri umferð og í nýlokinni

söfnun. Betri þekking á íslenska vefnum hjálpar okkur

að forðast að safna óþarfa efni (úr gildrum og álíka) en

á móti kemur að vefurinn stækkar og við náum einnig

betri yfirferð með aukinni reynslu. Þegar horft er til

lengri tíma þá er ljóst að hver ný umferð mun skila

meira gagnamagni en sú á undan.

Sem stendur ræður vélbúnaðurinn við að geyma

efni einnar söfnunar í viðbót, þannig að ljóst er að það

þarf að tvöfalda geymslupláss á komandi ári. Mun

svo þörfin á geymsluplássi fyrir hverja söfnun vaxa í

takt við stærð vefsins og hversu vel tekst til við að ná

að safna honum öllum. A móti kemur ör þróun í sviði

geymslumiðla sem mun væntanlega tryggja að árlegur

kostnaður helst nokkuð jafn þegar fram í sækir.

Auk þess að safna efni undir þjóðarléninu .is, þá

stendur einnig til að safna „efni sem birt er á öðrum

lénum á íslensku eða af íslenskum aðilum"[l], eins og

það er orðað í reglugerðinni. Mikill fjöldi íslendinga

heldur úti lénum á .net eða öðrum „alþjóðlegum" yfir-

lénum (e. Top Level Domairi) vegna þess að ódýrara er

að skrá þau. Væntanlega er um verulegt magn af gögn-

um að ræða en það er ennþá óleyst hvernig við getum

ákvarðað hverju ber að safna. Enginn listi er til yfir

þessa vefi. Einna helst er horft til samstarfs við aðila

eins og IA sem eru með mjög stórar safnanir og tung-

umálagreina vefina sem safnað er. Þannig mætti t.d.

fá lista yfir allar vefsíður sem reynast vera á íslensku í

tiltekinni söfnun.

Sem stendur er einnig verið að vinna í vefsöfnun á

tveimur öðrum vígstöðvum. Annars vegar er unnið að

því að gera safnið aðgengilegt í gegnum tól sem ber

skammstöfunina NWA [7] og var það rætt nokkuð í

grein eftir Þorstein Hallgrímsson í þessu blaði í fyrra

[2]. Ymis vandamál hafa komið upp með það verk-

færi, bæði varðandi aðlögun að nýju geymslusniði á

vefsöfnum og varðandi skölun upp í þann fjölda vef-

slóða sem nú skal safna. Unnið er að úrbótum og er

vonast til að hægt verði að koma NWA í gagnið með

vorinu. Verður þá hægt að vafra um safnið, líkt og

hægt er að vafra um internetið. Einnig verður í NWA

innbyggð leitarvél sem hægt er að nota til að finna

skjöl í safninu. Enn fremur er unnið að því að gera

samfellda söfnun á völdum vefjum mögulega. Þó svo

að við viljum geta safnað öllum vefjum, þá er ljóst að

takmörk eru fyrir því hversu oft er hægt að gera það.

Það er einnig ljóst að margir áhugaverðir vefir breytast

mörgum sinnum á milli tveggja safnana, jafnvel dag-

lega. Því hefur greinarhöfundur unnið að því síðustu

mánuði að smíða sérhluti í Heritrix sem gera kleift að

safna slíkum vefjum reglulega. Mun hugbúnaðurinn

greina þegar síður hafa breyst, ekki geyma óbreyttar

síður og aðlaga heimsóknartíðni sína að því hversu oft

síðurnar breytast. Hefur þetta verkefni fengið styrk frá

IIPC og munu tilraunir hefjast með hugbúnaðinn upp

úr áramótum.

Heimildir

[1]   982/2003  Reglugerð  um  skylduskil  til safna.

www.reglugerd.is

[2]  Þorsteinn   Hallgrímsson:   Varðveisla   íslenskra

vefsíðna. Bókasafnið 28. árg. 2004.

[3]   IIPC - International Internet Preservation Con-

sortium. www.netpreserve.org.

[4]  Open source - Allt um hugmyndina má finna á

www.opensource.org

[5]  Heritrix - Heimasíða crawler.archive.org

[6]  Nedlib - Heimasíða www.kb.nl/coop/nedlib

[7]  NWA - Nordic Web Archive er samvinnuverkefni

þjóðbókasafna Norðurlanda um að veita aðgang

að vefsöfnum. Heimasíða nwa.nb.no

[8]  Alexa Internet. Heimasíða: alexa.com

Abstract

Web site collection and Heritrix

As the World Wide Web has become an increasingly

important factor in day-to-day life, collecting

and preserving this digital heritage has also risen

in importance. However, collecting web sites is a

technically demanding process. This article discusses

some of those limitations and then provides an overview

of a new tool, Heritrix, which the Internet Archive in

San Francisco has created with the assistance of the

National Libraries of the Nordic countries. Heritrix

is an open source crawler designed to be extensible,

web-scale and of archival-quality. Developed by the

Internet Archive, the Nordic National Libraries also

sent two software engineers to aid in its development.

The project was a success and Heritrix is now being

used in several of the Nordic countries, including

Iceland. The first collection of the .is domain with

Heritrix was conducted in October and November

of 2004 and resulted in the collection of roughly 34

million documents. A total of 1.25 TB (terabyte) of

uncompressed data. During 2005, three additional

.is snapshots are planned and work continues on

developing and deploying access tools. We are also

working on continuous collection of selected sites to

capture day-to-day changes.

40

					
Fela smįmyndir
Blašsķša 1
Blašsķša 1
Blašsķša 2
Blašsķša 2
Blašsķša 3
Blašsķša 3
Blašsķša 4
Blašsķša 4
Blašsķša 5
Blašsķša 5
Blašsķša 6
Blašsķša 6
Blašsķša 7
Blašsķša 7
Blašsķša 8
Blašsķša 8
Blašsķša 9
Blašsķša 9
Blašsķša 10
Blašsķša 10
Blašsķša 11
Blašsķša 11
Blašsķša 12
Blašsķša 12
Blašsķša 13
Blašsķša 13
Blašsķša 14
Blašsķša 14
Blašsķša 15
Blašsķša 15
Blašsķša 16
Blašsķša 16
Blašsķša 17
Blašsķša 17
Blašsķša 18
Blašsķša 18
Blašsķša 19
Blašsķša 19
Blašsķša 20
Blašsķša 20
Blašsķša 21
Blašsķša 21
Blašsķša 22
Blašsķša 22
Blašsķša 23
Blašsķša 23
Blašsķša 24
Blašsķša 24
Blašsķša 25
Blašsķša 25
Blašsķša 26
Blašsķša 26
Blašsķša 27
Blašsķša 27
Blašsķša 28
Blašsķša 28
Blašsķša 29
Blašsķša 29
Blašsķša 30
Blašsķša 30
Blašsķša 31
Blašsķša 31
Blašsķša 32
Blašsķša 32
Blašsķša 33
Blašsķša 33
Blašsķša 34
Blašsķša 34
Blašsķša 35
Blašsķša 35
Blašsķša 36
Blašsķša 36
Blašsķša 37
Blašsķša 37
Blašsķša 38
Blašsķša 38
Blašsķša 39
Blašsķša 39
Blašsķša 40
Blašsķša 40
Blašsķša 41
Blašsķša 41
Blašsķša 42
Blašsķša 42
Blašsķša 43
Blašsķša 43
Blašsķša 44
Blašsķša 44
Blašsķša 45
Blašsķša 45
Blašsķša 46
Blašsķša 46
Blašsķša 47
Blašsķša 47
Blašsķša 48
Blašsķša 48
Blašsķša 49
Blašsķša 49
Blašsķša 50
Blašsķša 50
Blašsķša 51
Blašsķša 51
Blašsķša 52
Blašsķša 52
Blašsķša 53
Blašsķša 53
Blašsķša 54
Blašsķša 54
Blašsķša 55
Blašsķša 55
Blašsķša 56
Blašsķša 56
Blašsķša 57
Blašsķša 57
Blašsķša 58
Blašsķša 58
Blašsķša 59
Blašsķša 59
Blašsķša 60
Blašsķša 60
Blašsķša 61
Blašsķša 61
Blašsķša 62
Blašsķša 62
Blašsķša 63
Blašsķša 63
Blašsķša 64
Blašsķša 64
Blašsķša 65
Blašsķša 65
Blašsķša 66
Blašsķša 66
Blašsķša 67
Blašsķša 67
Blašsķša 68
Blašsķša 68
Blašsķša 69
Blašsķša 69
Blašsķša 70
Blašsķša 70
Blašsķša 71
Blašsķša 71
Blašsķša 72
Blašsķša 72
Blašsķša 73
Blašsķša 73
Blašsķša 74
Blašsķša 74
Blašsķša 75
Blašsķša 75
Blašsķša 76
Blašsķša 76
Blašsķša 77
Blašsķša 77
Blašsķša 78
Blašsķša 78
Blašsķša 79
Blašsķša 79
Blašsķša 80
Blašsķša 80
Blašsķša 81
Blašsķša 81
Blašsķša 82
Blašsķša 82
Blašsķša 83
Blašsķša 83
Blašsķša 84
Blašsķša 84