henni, breyta skilyrðum á keyrslutíma o.s.frv. Mynd 2 sýnir eina af helstu síðum notendaviðmótsins, þar sem fylgjast má með framgangi söfnunar. Eins og áður hefur verið nefnt, þá var eitt af mikil- vægustu markmiðum í hönnun Heritrix að gera tólið sem sveigjanlegast. Með þetta að leiðarljósi var útbúið kerfi fyrir stillingar á öllum þáttum tólsins sem leyfir stjórnanda að skilgreina stillingarnar fyrir hvert lén. Þetta virkar þannig að, t.d. ef grunnstillingin á þeim tíma sem þarf að bíða milli fyrirspurna til sama vef- þjóns er 0,1 sek. (sem er nokkuð góð meðalstilling) þá er samt hægt að yfirskrifa þessa stillingu fyrir hi.is vegna þess að við höfum leyfi til að safna örar þar. Þannig er hægt að hafa þennan biðtíma 0,01 sek fyrir hi.is. Sú stilling erfist þá til allra undirléna, eins og t.d. bok.hi.is. Ennfremur væri hægt að yfirskrifa stilling- una aftur á undirlénum og svo koll af kolli. Enn fremur leyfir Heritrix að stillingarnar breytist eftir því hvað klukkan er. Þannig gæti biðtíminn verið 0,05 sek á næturnar, en 0,1 sek á daginn. Einnig er hægt að láta stillingar breytast eftir tegund skjala og nokkrum öðrum þáttum. Þannig er hægt að stilla þjarkinn mjög fínt eftir þekktum aðstæðum á netinu. Enda býður Heritrix upp á mikinn fjölda stillinga á flestum þáttum hegðunar þjarksins, en það væri of langt mál að fara út í þær allar. Reynsla af fyrstu keyrslu Síðustu ár voru gerðar tilraunir með að safna íslenska vefnum með eldra tóli, Nedlib [6]. Hafði tólið ekki reynst alveg nógu vel, og að auki hafði allri þróun á því verið hætt. Var því nokkur eftirvænting að sjá hvernig Heritrix myndi reynast í þessu hlutverki. íslenska þjóðarlénið (.is) nær yfir rétt liðlega tíu þúsund lén. Fljótlega kom í ljós, að með þeim vél- búnaði sem var til ráðstöfunar þá náði Heritrix ekki að safna því öllu í einni lotu. Hljótast þessar takmarkanir af því að tólið geymir (ennþá) of mikið af gögnum í minni og við mjög stórar safnanir þrýtur minnið. Hinsvegar er ekkert því til fyrirstöðu að hluta léna- listann niður í viðráðanlegri bita, og var honum því skipt niður í tíu álíka stóra lista eftir stafrófsröð. í byrjun október 2004 var svo byrjað á fyrsta hlutan- um, og lauk þeim síðasta 1. desember. Það tók þannig u.þ.b. eina viku að keyra hvern hluta og hægt var að safna öllum íslenska vefnum á um tveimur mánuðum. Þetta þýðir með öðrum orðum að með Heritrix er hægt að safna öllum íslenska vefnum allt að sex sinnum á ári. Hinsvegar mun það sennilega ekki vera gert nema tvisv- ar til þrisvar sinnum og Heritrix ræður því greinilega við verkið. Þá heldur þróun á Heritrix vitaskuld áfram og mun í framtíðinni efiaust vera hægt að safna enn örar. I þessari fyrstu heildarsöfnun voru rétt liðlega 34 milljónir vefslóða heimsóttar. Gagnamagn varð um 1,25 terabæt, eða yfir 1.274 gígabæt. Er þetta ígildi um 1.864 geisladiska. Eða ef við lítum á þetta í formi bóka, þá er meðal bók um 65 þúsund orð eða sirka 380 kílóbæt, sem þýðir að gagnamagnið er ígildi um þriggja og hálfrar milljónar bóka! Reyndar er þessum gögnum þjappað og taka þau þá (aðeins) 700 gígabæt. Og þetta var bara fyrsta umferð. Mynd 3 og 4 sýnir skiptingu skjalanna eftir tegund. Mynd 3 sýnir hana eftir fjölda skjala og mynd 4 eftir gagnamagni. HTML skjöl (venjulegar vefsíður) yfirgnæfa í fjölda skjala, þar á eftir koma myndir en önnur skjöl eru hverfandi. Þetta kemur ekki á óvart því að margir stórir vefir eru með mikinn fjölda vefsíðna. Einnig samanstanda gildrur, að jafnaði, eingöngu af HTML skjölum og skekkir það myndina ef til vill nokkuð. Reyndar eru það textaskjölin sem þjappast langmest, þannig að þau eru mun auðveldari í geymslu. Þegar það kemur að gagnamagni þá lítur myndin öðruvísi út. Vissulega eru HTML skjölin enn stærsti þátturinn, en hlutir eins og PDF skjöl, hljóð- og mynd- bandaskrár taka nú sitt pláss. Enda eru slíkar skrár mjög stórar að jafnaði, þó fátíðar séu. Almennt má segja að þessi söfnun hafi gengið mjög vel. Vissulega komu upp ýmsir hnökrar fram- an af, en hægt var að bæta úr þeim og mun reynsl- an af þessari söfnun nýtast vel við næstu umferð. Óhætt er að segja að safnið sé nú komið með þjark sem dugar í þetta verk! 0,3% 0,7% 0,7% o HTML os önnurtextaskjöl ^ir~"~^ ¦ Myndir nl ^ DPOFskjÖI ¦1 |k DOftice skjöl ¦ m>. ¦ Annað Mynd 3. Skipting skjalategunda eftirfjölda Q HTML os onnur lextaskjöl ¦ Myndir DPDFskjöl DHIióðskrár ¦Myndbandaskrár E Þjappaðar skrár {zíp) ¦ Olfice skjol DAnnað Mynd 4. Skipting skjalategunda eftir gagnamagni BÓKASAFNIÐ 29. ÁRQ. 2005 39