þjóðbókasöfn Bandaríkjanna, Bretlands og Frakklands fulltrúa á vinnufundi sem haldnir voru um Heritrix meðan á samstarfi IA og Norðurlandanna stóð. Tæknilegt yfirlit Heritrix er þróað í Java forritunarmálinu. Eitt af grundvallaratriðunum í högun tólsins er sá mögu- leiki að stinga inn (e. plug-in) einingum eftir þörfum. En þetta er eiginleiki sem Java styður einstaklega vel. Þetta virkar þannig að Heritrix ,framework' eða ,vélin,' útfærir grunnvinnsluna. Þetta felur í sér not- endaviðmót, utanumhald um keyrslu og þræði o.s.frv. Á mynd 1 má sjá þessa helstu þætti. Notcndaviðmót (vef aðgangur) Crawl Controller Vinnslu loki' staða uppfærð Mynd 1. Grundvallarþttir i uppbyggingu Heritrix Hugbúnaðurinn vinnur þannig að CrawlController hluturinn sér um að útbúa aðra hluti og er svona umsjónarmaður með framgangi vinnslunnar. Frontier hluturinn heldur utan um stöðuna á sjálfri söfnuninni, þ.e. hvaða vefslóðir er búið að finna, hverjar er búið að sækja, hvað á að gera næst o.s.frv. Þessa einingu er hægt að skipta um á mjög einfaldan máta. Heritrix gefurút forritunarskil (e. interface) fyúr Frontier hluti. Þannig getur hver sem er útfært sínar eigin hugmyndir og ,stungið þeim í samband' með litlum tilkostnaði svo fremi sem sérsmíðin uppfylli forritunarskilin. Astæðan fyrir þessu er sú að hægt er að safna eftir mörgum ólíkum leiðum og skilyrðum. Stundum er bara öllu safnað beint, en það gæti líka verið ætlunin að margsafna ákveðnum hlutum. Þá gæti líka verið ætlunin að safna fyrst vefslóðum sem, af einhverjum ástæðum, teljast mikilvægari. Sum Frontier munu henta betur fyrir stórar safnanir, önnur fyrir minni. Með þessari tilhögun er tryggður mikill sveigjanleiki í hugbúnaðinum. Frontier úthlutar vefslóðum til vinnsluþráða. Þessir þræðir beita svo röð af aðgerðum (Processors) á hverja vefslóð. Um er að ræða fimm hópa af aðgerðum, hver hópur getur samanstaðið af mörgum aðgerðum. Fyrst er það undirbúningur (Prefetch) þar sem athu- gað er hvort vefslóðin uppfylli öll nauðsynleg skilyrði. Það gæti ef til vill átt eftir að ná í DNS (Domain Name Server) upplýsingar fyrir lénið sem vefslóðin tilheyrir. Því næst er það aðgerðir sem sækja skjölin (Fetcher). Svo kemur röð aðgerða sem dregur upplýsingar úr þeim Lim'iB.'.rr.T.'iffla r!TTi,T?Tll!í!l | Fli Edt Ww r***i T,-,:fe >r|o|*f| imim Slatus of crawler es ol des.. 9. 20q4 flB,;46;42,GMT »lerts: rto alerts Crawfer is runmng Current jnb: defaultARTesttng Administralor Console 0 jobs gefldjflfl, 12 cgmplBtetJ Qqwnloaded 4 doouments \n B sec Jobs Protiies t,ops Repnrts About Help Crawler running: Ves Current Job: deíaultARTeshng Jobs pendlng: 0 Jobs completed: 12 Status: Runníng Pracessed docs/sec: 0.0 (0.0) KB/soc: 0 (0) Runtlme: 2 sec. Usedmemory: 22891*6 Heapslze: 360-WKB Mök heap stie: 260160 kb Alerts: OÍOnew) Actlve threod tount: 0 of 50 Total data received: 5 tB æ I Tflrminate.surxefft.igB I gause. current; io& I Refresh ":" ';*jÍoc<Jr*4ret' ' J Mynd 2. Vejviðmót Heritrix (Extractor), það eru aðallega tenglar en þó ekki endi- lega eingöngu. Næst eru aðgerðir sem vista skjölin á disk (Writing). Að lokum er svo vinnsla sem uppfærir stöðu Frontier-sins, m.a. með því að skrá í það allar uppgötvaðar vefslóðir (Post processing). Að þessu loknu er vefslóðinni skilað til Frontier-sins með upplýsingum um hvernig gekk (ýmis vandræði geta komið upp svo sem að vefþjónn svari ekki). Hver einstök aðgerð útfærir ákveðin forritunarskil og hægt er að stinga sérsmíðuðum aðgerðum inn í þessa keðju. Má því með lítilli fyrirhöfn tengja sérsniðinn kóða við ákvarðanatöku Heritrix. Þannig er t.d. auðvelt að láta Heritrix vista vefslóðirnar á disk með öðrum hætti með því einu að setja inn viðeigandi aðgerð. Eins og sjá má á mynd 1, þá myndar ofangreind atburðarás kjarnann í Heritrix. Að vísu eru tvær aðrar tegundir af hlutum sem hafa áhrif á þjarkinn og hægt er að stinga í samband" á viðlíka máta. Annarsvegar er um að ræða svokallað Scope eða umfang, sem er hlutur sem takmarkar hvaða vefslóðir falla innan söfn- uninnar. Til dæmis er búið að sérsmíða slíkan hlut fyrir söfnun á íslenska vefnum. Hinsvegar er um síur að ræða sem hægt er að setja á aðgerðir. Þær takmarka hvaða vefslóðir fá aðgang að þeim aðgerðum. Þannig er t.d. hægt að koma í veg fyrir að vefslóðir sem upp- fylla ákveðin skilyrði séu sóttar eða skrifaðar á disk. Ofan á öllu þessu liggur notendaviðmót sem hægt er að nálgast í gegnum vafra. Notendaviðmótið gerir stjórnanda kleift að setja upp söfnun, fylgjast með