Horft fram á við Á næsta ári mun íslenska vefnum verða safnað tvisvar til þrisvar sinnum. Væntanlega mun fyrsta umferðin byrja í febrúar eða mars. Gert er ráð fyrir að gagna- magn verði álíka mikið í hverri umferð og í nýlokinni söfnun. Betri þekking á íslenska vefnum hjálpar okkur að forðast að safna óþarfa efni (úr gildrum og álíka) en á móti kemur að vefurinn stækkar og við náum einnig betri yfirferð með aukinni reynslu. Þegar horft er til lengri tíma þá er ljóst að hver ný umferð mun skila meira gagnamagni en sú á undan. Sem stendur ræður vélbúnaðurinn við að geyma efni einnar söfnunar í viðbót, þannig að ljóst er að það þarf að tvöfalda geymslupláss á komandi ári. Mun svo þörfin á geymsluplássi fyrir hverja söfnun vaxa í takt við stærð vefsins og hversu vel tekst til við að ná að safna honum öllum. A móti kemur ör þróun í sviði geymslumiðla sem mun væntanlega tryggja að árlegur kostnaður helst nokkuð jafn þegar fram í sækir. Auk þess að safna efni undir þjóðarléninu .is, þá stendur einnig til að safna efni sem birt er á öðrum lénum á íslensku eða af íslenskum aðilum"[l], eins og það er orðað í reglugerðinni. Mikill fjöldi íslendinga heldur úti lénum á .net eða öðrum alþjóðlegum" yfir- lénum (e. Top Level Domairi) vegna þess að ódýrara er að skrá þau. Væntanlega er um verulegt magn af gögn- um að ræða en það er ennþá óleyst hvernig við getum ákvarðað hverju ber að safna. Enginn listi er til yfir þessa vefi. Einna helst er horft til samstarfs við aðila eins og IA sem eru með mjög stórar safnanir og tung- umálagreina vefina sem safnað er. Þannig mætti t.d. fá lista yfir allar vefsíður sem reynast vera á íslensku í tiltekinni söfnun. Sem stendur er einnig verið að vinna í vefsöfnun á tveimur öðrum vígstöðvum. Annars vegar er unnið að því að gera safnið aðgengilegt í gegnum tól sem ber skammstöfunina NWA [7] og var það rætt nokkuð í grein eftir Þorstein Hallgrímsson í þessu blaði í fyrra [2]. Ymis vandamál hafa komið upp með það verk- færi, bæði varðandi aðlögun að nýju geymslusniði á vefsöfnum og varðandi skölun upp í þann fjölda vef- slóða sem nú skal safna. Unnið er að úrbótum og er vonast til að hægt verði að koma NWA í gagnið með vorinu. Verður þá hægt að vafra um safnið, líkt og hægt er að vafra um internetið. Einnig verður í NWA innbyggð leitarvél sem hægt er að nota til að finna skjöl í safninu. Enn fremur er unnið að því að gera samfellda söfnun á völdum vefjum mögulega. Þó svo að við viljum geta safnað öllum vefjum, þá er ljóst að takmörk eru fyrir því hversu oft er hægt að gera það. Það er einnig ljóst að margir áhugaverðir vefir breytast mörgum sinnum á milli tveggja safnana, jafnvel dag- lega. Því hefur greinarhöfundur unnið að því síðustu mánuði að smíða sérhluti í Heritrix sem gera kleift að safna slíkum vefjum reglulega. Mun hugbúnaðurinn greina þegar síður hafa breyst, ekki geyma óbreyttar síður og aðlaga heimsóknartíðni sína að því hversu oft síðurnar breytast. Hefur þetta verkefni fengið styrk frá IIPC og munu tilraunir hefjast með hugbúnaðinn upp úr áramótum. Heimildir [1] 982/2003 Reglugerð um skylduskil til safna. www.reglugerd.is [2] Þorsteinn Hallgrímsson: Varðveisla íslenskra vefsíðna. Bókasafnið 28. árg. 2004. [3] IIPC - International Internet Preservation Con- sortium. www.netpreserve.org. [4] Open source - Allt um hugmyndina má finna á www.opensource.org [5] Heritrix - Heimasíða crawler.archive.org [6] Nedlib - Heimasíða www.kb.nl/coop/nedlib [7] NWA - Nordic Web Archive er samvinnuverkefni þjóðbókasafna Norðurlanda um að veita aðgang að vefsöfnum. Heimasíða nwa.nb.no [8] Alexa Internet. Heimasíða: alexa.com Abstract Web site collection and Heritrix As the World Wide Web has become an increasingly important factor in day-to-day life, collecting and preserving this digital heritage has also risen in importance. However, collecting web sites is a technically demanding process. This article discusses some of those limitations and then provides an overview of a new tool, Heritrix, which the Internet Archive in San Francisco has created with the assistance of the National Libraries of the Nordic countries. Heritrix is an open source crawler designed to be extensible, web-scale and of archival-quality. Developed by the Internet Archive, the Nordic National Libraries also sent two software engineers to aid in its development. The project was a success and Heritrix is now being used in several of the Nordic countries, including Iceland. The first collection of the .is domain with Heritrix was conducted in October and November of 2004 and resulted in the collection of roughly 34 million documents. A total of 1.25 TB (terabyte) of uncompressed data. During 2005, three additional .is snapshots are planned and work continues on developing and deploying access tools. We are also working on continuous collection of selected sites to capture day-to-day changes. 40