Tķmarit.is   | Tķmarit.is |
Leita | Titlar | Greinar | Fréttir | Um vefinn | Algengar spurningar |
skrį inn | Íslenska | Føroyskt | Kalaallisut | Dansk | English |

Bókasafniš

PDF  | HQ_PDF  | TXT  |
Skoša ķ nżjum glugga:
PDF  | HQ_PDF  | TXT  |


Ašlaga hęš


žś žarft aš vera meš Adobe Reader Plugin til aš skoša žessa sķšu


get Adobe Reader



Bókasafniš

						þjóðbókasöfn Bandaríkjanna, Bretlands og Frakklands

fulltrúa á vinnufundi sem haldnir voru um Heritrix

meðan á samstarfi IA og Norðurlandanna stóð.

Tæknilegt yfirlit

Heritrix er þróað í Java forritunarmálinu. Eitt af

grundvallaratriðunum í högun tólsins er sá mögu-

leiki að stinga inn (e. plug-in) einingum eftir þörfum.

En þetta er eiginleiki sem Java styður einstaklega

vel. Þetta virkar þannig að Heritrix ,framework' eða

,vélin,' útfærir grunnvinnsluna. Þetta felur í sér not-

endaviðmót, utanumhald um keyrslu og þræði o.s.frv.

Á mynd 1 má sjá þessa helstu þætti.

Notcndaviðmót

(vef aðgangur)

Crawl Controller

Vinnslu loki'

staða uppfærð

Mynd 1. Grundvallarþœttir i uppbyggingu Heritrix

Hugbúnaðurinn vinnur þannig að CrawlController

hluturinn sér um að útbúa aðra hluti og er svona

umsjónarmaður með framgangi vinnslunnar. Frontier

hluturinn heldur utan um stöðuna á sjálfri söfnuninni,

þ.e. hvaða vefslóðir er búið að finna, hverjar er búið

að sækja, hvað á að gera næst o.s.frv. Þessa einingu

er hægt að skipta um á mjög einfaldan máta. Heritrix

gefurút forritunarskil (e. interface) fyúr Frontier hluti.

Þannig getur hver sem er útfært sínar eigin hugmyndir

og ,stungið þeim í samband' með litlum tilkostnaði

svo fremi sem sérsmíðin uppfylli forritunarskilin.

Astæðan fyrir þessu er sú að hægt er að safna eftir

mörgum ólíkum leiðum og skilyrðum. Stundum er

bara öllu safnað beint, en það gæti líka verið ætlunin

að margsafna ákveðnum hlutum. Þá gæti líka verið

ætlunin að safna fyrst vefslóðum sem, af einhverjum

ástæðum, teljast mikilvægari.  Sum Frontier munu

henta betur fyrir stórar safnanir, önnur fyrir minni.

Með þessari tilhögun er tryggður mikill sveigjanleiki

í hugbúnaðinum.

Frontier úthlutar vefslóðum til vinnsluþráða. Þessir

þræðir beita svo röð af aðgerðum (Processors) á hverja

vefslóð. Um er að ræða fimm hópa af aðgerðum, hver

hópur getur samanstaðið af mörgum aðgerðum.

Fyrst er það undirbúningur (Prefetch) þar sem athu-

gað er hvort vefslóðin uppfylli öll nauðsynleg skilyrði.

Það gæti ef til vill átt eftir að ná í DNS (Domain Name

Server) upplýsingar fyrir lénið sem vefslóðin tilheyrir.

Því næst er það aðgerðir sem sækja skjölin (Fetcher).

Svo kemur röð aðgerða sem dregur upplýsingar úr þeim

Lim'iB.'.rr.T.'iffla

r!TTi,T?Tll!í!l

|   Fli    Edt     Ww     r*™**i     T,-,:fe

>r|o|*f|

imim

Slatus of crawler es ol des.. 9. 20q4 flB,;46;42,GMT     »lerts: rto alerts

Crawfer is runmng                          Current jnb: defaultARTesttng

Administralor Console   0 jobs gefldjflfl, 12 cgmplBtetJ        Qqwnloaded 4 doouments \n B sec

Jobs    Protiies    t,ops    Repnrts    About    Help

Crawler running: Ves

Current Job:         deíaultARTeshng

Jobs pendlng:      0

Jobs completed:  12

Status:                        Runníng

Pracessed docs/sec: 0.0 (0.0)     KB/soc: 0 (0)

Runtlme:                    2 sec.

Usedmemory: 22891*6

Heapslze: 360-WKB

Mök heap stie: 260160 kb

Alerts:               OÍOnew)

Actlve threod tount: 0 of 50

Total data received: 5 tB

æ I Tflrminate.surxefft.igB I gause. current; io& I Refresh


":" ';*jÍoc<Jr*4ret' '

J

Mynd 2. Vejviðmót Heritrix

(Extractor), það eru aðallega tenglar en þó ekki endi-

lega eingöngu. Næst eru aðgerðir sem vista skjölin á

disk (Writing). Að lokum er svo vinnsla sem uppfærir

stöðu Frontier-sins, m.a. með því að skrá í það allar

uppgötvaðar vefslóðir (Post processing).

Að þessu loknu er vefslóðinni skilað til Frontier-sins

með upplýsingum um hvernig gekk (ýmis vandræði

geta komið upp svo sem að vefþjónn svari ekki).

Hver einstök aðgerð útfærir ákveðin forritunarskil

og hægt er að stinga sérsmíðuðum aðgerðum inn í þessa

keðju. Má því með lítilli fyrirhöfn tengja sérsniðinn

kóða við ákvarðanatöku Heritrix. Þannig er t.d. auðvelt

að láta Heritrix vista vefslóðirnar á disk með öðrum

hætti með því einu að setja inn viðeigandi aðgerð.

Eins og sjá má á mynd 1, þá myndar ofangreind

atburðarás kjarnann í Heritrix. Að vísu eru tvær aðrar

tegundir af hlutum sem hafa áhrif á þjarkinn og hægt

er að „stinga í samband" á viðlíka máta. Annarsvegar

er um að ræða svokallað Scope eða umfang, sem er

hlutur sem takmarkar hvaða vefslóðir falla innan söfn-

uninnar. Til dæmis er búið að sérsmíða slíkan hlut

fyrir söfnun á íslenska vefnum. Hinsvegar er um síur

að ræða sem hægt er að setja á aðgerðir. Þær takmarka

hvaða vefslóðir fá aðgang að þeim aðgerðum. Þannig

er t.d. hægt að koma í veg fyrir að vefslóðir sem upp-

fylla ákveðin skilyrði séu sóttar eða skrifaðar á disk.

Ofan á öllu þessu liggur notendaviðmót sem hægt

er að nálgast í gegnum vafra. Notendaviðmótið gerir

stjórnanda kleift að setja upp söfnun, fylgjast með

					
Fela smįmyndir
Blašsķša 1
Blašsķša 1
Blašsķša 2
Blašsķša 2
Blašsķša 3
Blašsķša 3
Blašsķša 4
Blašsķša 4
Blašsķša 5
Blašsķša 5
Blašsķša 6
Blašsķša 6
Blašsķša 7
Blašsķša 7
Blašsķša 8
Blašsķša 8
Blašsķša 9
Blašsķša 9
Blašsķša 10
Blašsķša 10
Blašsķša 11
Blašsķša 11
Blašsķša 12
Blašsķša 12
Blašsķša 13
Blašsķša 13
Blašsķša 14
Blašsķša 14
Blašsķša 15
Blašsķša 15
Blašsķša 16
Blašsķša 16
Blašsķša 17
Blašsķša 17
Blašsķša 18
Blašsķša 18
Blašsķša 19
Blašsķša 19
Blašsķša 20
Blašsķša 20
Blašsķša 21
Blašsķša 21
Blašsķša 22
Blašsķša 22
Blašsķša 23
Blašsķša 23
Blašsķša 24
Blašsķša 24
Blašsķša 25
Blašsķša 25
Blašsķša 26
Blašsķša 26
Blašsķša 27
Blašsķša 27
Blašsķša 28
Blašsķša 28
Blašsķša 29
Blašsķša 29
Blašsķša 30
Blašsķša 30
Blašsķša 31
Blašsķša 31
Blašsķša 32
Blašsķša 32
Blašsķša 33
Blašsķša 33
Blašsķša 34
Blašsķša 34
Blašsķša 35
Blašsķša 35
Blašsķša 36
Blašsķša 36
Blašsķša 37
Blašsķša 37
Blašsķša 38
Blašsķša 38
Blašsķša 39
Blašsķša 39
Blašsķša 40
Blašsķša 40
Blašsķša 41
Blašsķša 41
Blašsķša 42
Blašsķša 42
Blašsķša 43
Blašsķša 43
Blašsķša 44
Blašsķša 44
Blašsķša 45
Blašsķša 45
Blašsķša 46
Blašsķša 46
Blašsķša 47
Blašsķša 47
Blašsķša 48
Blašsķša 48
Blašsķša 49
Blašsķša 49
Blašsķša 50
Blašsķša 50
Blašsķša 51
Blašsķša 51
Blašsķša 52
Blašsķša 52
Blašsķša 53
Blašsķša 53
Blašsķša 54
Blašsķša 54
Blašsķša 55
Blašsķša 55
Blašsķša 56
Blašsķša 56
Blašsķša 57
Blašsķša 57
Blašsķša 58
Blašsķša 58
Blašsķša 59
Blašsķša 59
Blašsķša 60
Blašsķša 60
Blašsķša 61
Blašsķša 61
Blašsķša 62
Blašsķša 62
Blašsķša 63
Blašsķša 63
Blašsķša 64
Blašsķša 64
Blašsķša 65
Blašsķša 65
Blašsķša 66
Blašsķša 66
Blašsķša 67
Blašsķša 67
Blašsķša 68
Blašsķša 68
Blašsķša 69
Blašsķša 69
Blašsķša 70
Blašsķša 70
Blašsķša 71
Blašsķša 71
Blašsķša 72
Blašsķša 72
Blašsķša 73
Blašsķša 73
Blašsķša 74
Blašsķša 74
Blašsķša 75
Blašsķša 75
Blašsķša 76
Blašsķša 76
Blašsķša 77
Blašsķša 77
Blašsķša 78
Blašsķša 78
Blašsķša 79
Blašsķša 79
Blašsķša 80
Blašsķša 80
Blašsķša 81
Blašsķša 81
Blašsķša 82
Blašsķša 82
Blašsķša 83
Blašsķša 83
Blašsķša 84
Blašsķša 84