Kristinn Sigurðsson Söfnun vefsíðna og Heritrix Veraldarvefurinn er stór. Tölur um stærð hans lúta sömu lögmálum og tölur í fjárlögum landa; eru það stórar að fólk á erfitt með að setja þær í samhengi. Milljarðar skjala, terabæt og jafnvel petabt af gögnum! Hvernig dettur nokkrum manni í hug að hægt sé að gera þessu öll skil, hvað þá að safna og varðveita þetta allt? Það verkefni sem vefstjórar Landsbókasafns íslands - Háskólabókasafns standa frammi fyrir núna, er að safha öllum íslenska" hluta veraldarvefsins. Áður en við reynum að leysa það, skulum við líta á hvað gert hefur verið á þessu sviði. Veraldarvefurinn kemur fram á sjónarsviðið í upp- hafi tíunda áratugarins. Um miðbik þess áratugar er hann orðinn það stór að svokallaðar ,leitarvélar' eru nauðsynlegar. Slík þarfatæki voru leitarvélarnar að fjöldi þeirra margfaldaðist á skömmum tíma. Árið 1996 hóf Internet Archive (IA) að prófa sig áfram með nýja hugmynd. í stað þess að skrásetja eingöngu það sem er fáanlegt á vefnum núna, væri æskilegra að safna honum og geyma. Þannig mætti sjá hvernig þessi og hin vefsíða leit út þegar söfnun var framkvæmd, jafnvel ár eða áratugi aftur í tímann. I dag hefur IA safnað yfir fjögur hundruð terabæt- um, eða fjögur hundruð milljón gígabætum af vef- síðum og öðru efni af veraldarvefnum. Samt er þetta ekki nema brot af vefnum á hverjum tíma sem tekst að safna! Um svipað leyti voru þjóðbókasöfn ýmissa landa farin að huga að því sama. Til langs tíma hefur það nefnilega tíðkast að útgefendur hverskyns prentaðs efnis láti þjóðbókasöfn hafa eintök til varðveislu. Hafa þessi skylduskil víða verið útvíkkuð til að ná til útgáfu stafræns efnis, svo sem geisladiska. Það lá því beint við að láta það sama gilda um stafrænt efni sem gefið er út á vefnum. Það er þó ákveðinn grundvallarmunur á útgáfu efnis á vefnum og í öðru formi. Útgáfukostnaður á netinu er nefnilega hverfandi. Það þýðir að hver sem er getur, með litlum tilkostnaði, gefið út mikið magn efnis. Ekki er heldur hægt að gera almenna kröfu um að allir skili inn eintaki til varðveislu. Verulegur hluti veraldar- vefsins er algjörlega á forræði einstaklinga. Þar koma engin útgáfufyrirtæki eða prentsmiðjur nálægt. Það liggur því í augum uppi að það þarf að safna efhinu með því að sækja það af netinu. Frá þessu kunna að vera einstaka undantekningar. Stórir fjölmiðlar, til dæmis, gætu viljað afhenda efni sem þeir hafa yfir að ráða. En almenna reglan er sú að safnið sækir gögnin. Menn greinir reyndar á um hvort ástæða sé til að safna öllum vefnum. Mikið af efni á honum er án efa lítils virði. Hafa því sum þjóðbókasöfn, t.d. í Ástralíu [2], tekið þá ákvörðun að safna einungis völdum vefj- um. Á Norðurlöndunum hefur hinsvegar ríkt sú skoðun að í dag hafi menn engar forsendur til að meta endan- lega hvað er gott" efni og hvað ekki. Því er reynt eftir fremsta megni að safna öllu efni af veraldarvefhum sem viðkemur hverju landi. I 6. grein reglugerðar um skylduskil til safna [1] er það mengi af veraldarvefnum sem Landsbókasafn á að safna skilgreint þannig: Undir þennan flokk falla vefsíður og önnur gögn - sem birt eru eða gerð aðgengileg almenningi á hinum íslenska hluta veraldarvefsins, þ.e. þjóðarléninu .is, svo og efni sem birt er á öðrum lénum á íslensku eða af íslenskum aðilum." Tæknilegar takmarkanir Grundvallarhugmyndin á bak við söfnun á vefnum, hvort sem er til varðveislu eða skrásetningar líkt og leitarvélar gera, er sú sama. Hugbúnaður er fóðraður á mengi vefslóða og hver vefslóð er sótt og í efni hennar er leitað að nýjum slóðum. Síðan eru nýju slóðirnar heimsóttar og fleiri slóðir fundnar. Þannig gengur þetta koll af kolli uns ... ja, ef engar frekari takmarkanir eru settar þá er ólíklegt að þetta taki nokkurn endi. Staðreyndin er sú að veraldarvefurinn vex með ógnarhraða. Jafnvel mjög afkastamikið forrit ætti í gríðarlegum erfiðleikum með að halda í við vöxtinn. En málið er flóknara en svo. Veraldarvefurinn er nefnilega óvinsamlegur svona þjörkum (e. robots) sem safna efni sjálfvirkt. Vefþjónar eiga það til að búa til 36 BÓKASAFNID 29. ÁRG. 2005