Tķmarit.is   | Tķmarit.is |
Leita | Titlar | Greinar | Fréttir | Um vefinn | Algengar spurningar |
skrį inn | Íslenska | Føroyskt | Kalaallisut | Dansk | English |

Bókasafniš

PDF  | HQ_PDF  | TXT  |
Skoša ķ nżjum glugga:
PDF  | HQ_PDF  | TXT  |


Ašlaga hęš


žś žarft aš vera meš Adobe Reader Plugin til aš skoša žessa sķšu


get Adobe Reader



Bókasafniš

						henni, breyta skilyrðum á keyrslutíma o.s.frv. Mynd 2

sýnir eina af helstu síðum notendaviðmótsins, þar sem

fylgjast má með framgangi söfnunar.

Eins og áður hefur verið nefnt, þá var eitt af mikil-

vægustu markmiðum í hönnun Heritrix að gera tólið

sem sveigjanlegast. Með þetta að leiðarljósi var útbúið

kerfi fyrir stillingar á öllum þáttum tólsins sem leyfir

stjórnanda að skilgreina stillingarnar fyrir hvert lén.

Þetta virkar þannig að, t.d. ef grunnstillingin á þeim

tíma sem þarf að bíða milli fyrirspurna til sama vef-

þjóns er 0,1 sek. (sem er nokkuð góð meðalstilling)

þá er samt hægt að yfirskrifa þessa stillingu fyrir hi.is

vegna þess að við höfum leyfi til að safna örar þar.

Þannig er hægt að hafa þennan biðtíma 0,01 sek fyrir

hi.is. Sú stilling erfist þá til allra undirléna, eins og t.d.

bok.hi.is. Ennfremur væri hægt að yfirskrifa stilling-

una aftur á undirlénum og svo koll af kolli.

Enn fremur leyfir Heritrix að stillingarnar breytist

eftir því hvað klukkan er. Þannig gæti biðtíminn verið

0,05 sek á næturnar, en 0,1 sek á daginn. Einnig er

hægt að láta stillingar breytast eftir tegund skjala og

nokkrum öðrum þáttum.

Þannig er hægt að stilla þjarkinn mjög fínt eftir

þekktum aðstæðum á netinu. Enda býður Heritrix upp

á mikinn fjölda stillinga á flestum þáttum hegðunar

þjarksins, en það væri of langt mál að fara út í þær

allar.

Reynsla af fyrstu keyrslu

Síðustu ár voru gerðar tilraunir með að safna íslenska

vefnum með eldra tóli, Nedlib [6]. Hafði tólið ekki

reynst alveg nógu vel, og að auki hafði allri þróun á því

verið hætt. Var því nokkur eftirvænting að sjá hvernig

Heritrix myndi reynast í þessu hlutverki.

íslenska þjóðarlénið (.is) nær yfir rétt liðlega tíu

þúsund lén. Fljótlega kom í ljós, að með þeim vél-

búnaði sem var til ráðstöfunar þá náði Heritrix ekki að

safna því öllu í einni lotu. Hljótast þessar takmarkanir

af því að tólið geymir (ennþá) of mikið af gögnum í

minni og við mjög stórar safnanir þrýtur minnið.

Hinsvegar er ekkert því til fyrirstöðu að hluta léna-

listann niður í viðráðanlegri bita, og var honum því

skipt niður í tíu álíka stóra lista eftir stafrófsröð.

í byrjun október 2004 var svo byrjað á fyrsta hlutan-

um, og lauk þeim síðasta 1. desember. Það tók þannig

u.þ.b. eina viku að keyra hvern hluta og hægt var að

safna öllum íslenska vefnum á um tveimur mánuðum.

Þetta þýðir með öðrum orðum að með Heritrix er hægt

að safna öllum íslenska vefnum allt að sex sinnum á ári.

Hinsvegar mun það sennilega ekki vera gert nema tvisv-

ar til þrisvar sinnum og Heritrix ræður því greinilega við

verkið. Þá heldur þróun á Heritrix vitaskuld áfram og

mun í framtíðinni efiaust vera hægt að safna enn örar.

I þessari fyrstu heildarsöfnun voru rétt liðlega 34

milljónir vefslóða heimsóttar. Gagnamagn varð um

1,25 terabæt, eða yfir 1.274 gígabæt. Er þetta ígildi

um 1.864 geisladiska. Eða ef við lítum á þetta í formi

bóka, þá er meðal bók um 65 þúsund orð eða sirka

380 kílóbæt, sem þýðir að gagnamagnið er ígildi um

þriggja og hálfrar milljónar bóka! Reyndar er þessum

gögnum þjappað og taka þau þá (aðeins) 700 gígabæt.

Og þetta var bara fyrsta umferð.

Mynd 3 og 4 sýnir skiptingu skjalanna eftir tegund.

Mynd 3 sýnir hana eftir fjölda skjala og mynd 4 eftir

gagnamagni.

HTML skjöl (venjulegar vefsíður) yfirgnæfa í

fjölda skjala, þar á eftir koma myndir en önnur skjöl

eru hverfandi. Þetta kemur ekki á óvart því að margir

stórir vefir eru með mikinn fjölda vefsíðna. Einnig

samanstanda gildrur, að jafnaði, eingöngu af HTML

skjölum og skekkir það myndina ef til vill nokkuð.

Reyndar eru það textaskjölin sem þjappast langmest,

þannig að þau eru mun auðveldari í geymslu.

Þegar það kemur að gagnamagni þá lítur myndin

öðruvísi út. Vissulega eru HTML skjölin enn stærsti

þátturinn, en hlutir eins og PDF skjöl, hljóð- og mynd-

bandaskrár taka nú sitt pláss. Enda eru slíkar skrár

mjög stórar að jafnaði, þó fátíðar séu.

Almennt má segja að þessi söfnun hafi gengið

mjög vel. Vissulega komu upp ýmsir hnökrar fram-

an af, en hægt var að bæta úr þeim og mun reynsl-

an af þessari söfnun nýtast vel við næstu umferð.

Óhætt er að segja að safnið sé nú komið með þjark

sem dugar í þetta verk!

0,3%		

0,7%       0,7%		o HTML os önnurtextaskjöl

^ir~"~^		¦ Myndir

nl	^	DPOFskjÖI

¦1	|k	DOftice skjöl

¦	m>.	¦ Annað

Mynd 3. Skipting skjalategunda eftirfjölda

Q HTML os onnur lextaskjöl

¦ Myndir

DPDFskjöl

DHIióðskrár

¦Myndbandaskrár

E Þjappaðar skrár {zíp)

¦ Olfice skjol

DAnnað

Mynd 4. Skipting skjalategunda eftir gagnamagni

BÓKASAFNIÐ 29. ÁRQ. 2005

39

					
Fela smįmyndir
Blašsķša 1
Blašsķša 1
Blašsķša 2
Blašsķša 2
Blašsķša 3
Blašsķša 3
Blašsķša 4
Blašsķša 4
Blašsķša 5
Blašsķša 5
Blašsķša 6
Blašsķša 6
Blašsķša 7
Blašsķša 7
Blašsķša 8
Blašsķša 8
Blašsķša 9
Blašsķša 9
Blašsķša 10
Blašsķša 10
Blašsķša 11
Blašsķša 11
Blašsķša 12
Blašsķša 12
Blašsķša 13
Blašsķša 13
Blašsķša 14
Blašsķša 14
Blašsķša 15
Blašsķša 15
Blašsķša 16
Blašsķša 16
Blašsķša 17
Blašsķša 17
Blašsķša 18
Blašsķša 18
Blašsķša 19
Blašsķša 19
Blašsķša 20
Blašsķša 20
Blašsķša 21
Blašsķša 21
Blašsķša 22
Blašsķša 22
Blašsķša 23
Blašsķša 23
Blašsķša 24
Blašsķša 24
Blašsķša 25
Blašsķša 25
Blašsķša 26
Blašsķša 26
Blašsķša 27
Blašsķša 27
Blašsķša 28
Blašsķša 28
Blašsķša 29
Blašsķša 29
Blašsķša 30
Blašsķša 30
Blašsķša 31
Blašsķša 31
Blašsķša 32
Blašsķša 32
Blašsķša 33
Blašsķša 33
Blašsķša 34
Blašsķša 34
Blašsķša 35
Blašsķša 35
Blašsķša 36
Blašsķša 36
Blašsķša 37
Blašsķša 37
Blašsķša 38
Blašsķša 38
Blašsķša 39
Blašsķša 39
Blašsķša 40
Blašsķša 40
Blašsķša 41
Blašsķša 41
Blašsķša 42
Blašsķša 42
Blašsķša 43
Blašsķša 43
Blašsķša 44
Blašsķša 44
Blašsķša 45
Blašsķša 45
Blašsķša 46
Blašsķša 46
Blašsķša 47
Blašsķša 47
Blašsķša 48
Blašsķša 48
Blašsķša 49
Blašsķša 49
Blašsķša 50
Blašsķša 50
Blašsķša 51
Blašsķša 51
Blašsķša 52
Blašsķša 52
Blašsķša 53
Blašsķša 53
Blašsķša 54
Blašsķša 54
Blašsķša 55
Blašsķša 55
Blašsķša 56
Blašsķša 56
Blašsķša 57
Blašsķša 57
Blašsķša 58
Blašsķša 58
Blašsķša 59
Blašsķša 59
Blašsķša 60
Blašsķša 60
Blašsķša 61
Blašsķša 61
Blašsķša 62
Blašsķša 62
Blašsķša 63
Blašsķša 63
Blašsķša 64
Blašsķša 64
Blašsķša 65
Blašsķša 65
Blašsķša 66
Blašsķša 66
Blašsķša 67
Blašsķša 67
Blašsķša 68
Blašsķša 68
Blašsķša 69
Blašsķša 69
Blašsķša 70
Blašsķša 70
Blašsķša 71
Blašsķša 71
Blašsķša 72
Blašsķša 72
Blašsķša 73
Blašsķša 73
Blašsķša 74
Blašsķša 74
Blašsķša 75
Blašsķša 75
Blašsķša 76
Blašsķša 76
Blašsķša 77
Blašsķša 77
Blašsķša 78
Blašsķša 78
Blašsķša 79
Blašsķša 79
Blašsķša 80
Blašsķša 80
Blašsķša 81
Blašsķša 81
Blašsķša 82
Blašsķša 82
Blašsķša 83
Blašsķša 83
Blašsķša 84
Blašsķša 84