Bókasafnið

◄ Árgangur ►

◄ Útgáva ►

◄ Article ►

Instructions (PDF)

Bókasafnið - 01.01.2003, Síða 69

Þegar rit hefur verið skráð í bókfræðigrunn er það tilbúið til myndatöku. í myndvinnslunni verður til ein frummynd sem er á TIF-sniði (þar er myndin óþjöpp- uð og ekkert hefur verið átt við hana og er hún n. k. varðveislueintak í 300 punkta upplausn (dpi)). Þessu næst er búin til mynd á DJVU-sniði en það er sérstak- lega hannað til birtingar á myndum af textaskjölum á Netinu. Það snið hefur reynst mjög vel og þá eru myndirnar einnig mjög litlar - á bilinu 10 til 100 K - sem þykir mjög meðfærilegt til notkunar. Búið er til sérstakt myndasafn sem gagnagrunnur verkefnisins vísar í. Sá þáttur sem ekki má gleymast er að örfilman er einnig viðurkenndur geymslumáti. Hægt er að prenta allar stafrænar myndir á örfilmu og varðveita með þeim hætti. Greinaskráning og efnisorð Vinna við þennan þátt verkefnisins er enn á hug- myndastigi en við vitum hvað við ætlum okkur að fá út úr þessum verkþætti og hvers konar aðgengi skal bjóða notendum upp á. Hér skal búa til leitarbært efnisyfirlit yfir blöðin og tímaritin sem eru á Netinu. Þá þarf í fyrsta lagi er að skrá nafn höfundar, ef það er þekkt, þá titil greinar og gefa henni almennt efnisorð, og hér verður byggt á mjög einföldum efnisorðalista. Á þessu stigi verður ekki miklum tíma eytt í atriði eins og það að finna út hver höfundurinn var. Er það þessi Jón Jónsson eða hinn? Hugmyndin með efnis- orðunum, sem verða einföld, er að geta tengt saman skylt efni sem kann að vera í mörgum öðrum eintök- um af sama blaði eða öðrum blöðum frá sama tíma. Þá er einnig gert ráð fyrir að nota þær upplýsingar sem eru núna í Greini, a. m. k. yfir það efni sem var gefið út á 19. öld. Eins og ég sagði hér að framan þá er þetta allt á hugmyndastigi. Tvær mismunandi aðferðir koma til greina við lausn þessa verkefnis. í fyrsta lagi að greinaskrá blöðin og tímaritin með forritum ellegar tólum sem vinna þetta á sjálfvirkan hátt eftir for- skrift þar sem skimað er vélrænt yfir myndir af blaðsíðunum og borin kennsl á eftir forskrift hvað er t. d. fyrirsögn og hvað er nafn höfundar. Hér er unnið út frá því að tólin læra að þekkja stílsnið blaðanna, þ. e. með hvaða letri er t. d. fyrirsögn prentuð, nafn höf- undar og millifyrirsagnir svo eitthvað sé nefnt. Þetta er að nokkru leyti svipað því hvernig OCR-forritið vinnur. Það sem tólin bera svo kennsl á er síðan merkt með svokallaðri XML-merkingu og verður komið fyrir í leitarbærum gagnagrunni þar sem hægt verður að búa til aðgengilegt efnisyfirlit. í öðru lagi kemur til greina að handmerkja nöfn og fyrirsagnir í þeim texta sem verður til í OCR-vinnslunni (sjá hér að neðan), ásamt því að gefa innihaldinu efnisorð. Þessar merkingar verða með fyrrnefndri XML-merk- ingu og þeim yrði svo varpað inn í gagnagrunninn sem verður þá á sama hátt tengdur myndasafninu og því hægt að stökkva þangað um leið þar sem þessi til- tekna fyrirsögn kemur fyrir. Ávinningurinn af því að búa til efnisyfirlit að blöðunum með þessum hætti er sá að notendur geta betur kynnst efni þeirra blaða og tímarita sem eru og verða í safninu. Textavinnsla og tungutækni Búið verður til stórt leitarbært textasafn og þannig öðlast notendur ýtarlegri aðgang að efninu og þeir geta leitað eftir ákveðnum orðum eða orðasambönd- um. Gerðar hafa verið nokkrar tilraunir við að um- breyta mynd í texta og lofa þær góðu. Niðurstöður hafa stundum verið þær að textinn sem fenginn er með OCR-forritinu er meira en 99% réttur. Fyrir þá sem ekki þekkja hvernig OCR-forrit vinnur er það svo í stuttu máli: Forritið ber kennsl á bókstafi á staf- rænni mynd og lærir að þekkja þá og umbreytir þeim síðan í tölvutækan texta. í upphafi verkefnisins urð- um við að gera okkur grein fyrir því hvaða OCR-forrit væru fær um að leysa þetta verk og vinna með ís- lenska sérstafi, eins og þ og ð. Eftir tilraunir komumst við að því að forrit sem heitir Fine Reader og er frá Rússlandi reyndist best. Við höfum gert tilraunir með nokkur blöð eins og Þjóðólf og Lanztíðindi. Öll blöð frá þessum tíma eiga það sammerkt að vera vel prentuð og pappírinn er í þokkalegu ástandi. Þetta forrit er hægt að „þjálfa" til að þekkja íslenska stafi og síðan hægt að keyra orðalista yfir þann texta sem út úr þessu kemur og leiðrétta hann. Einnig er hægt að nota það sem kallað hefur verið Fuzzy Search eða moðleit til að leita í textanum og þá er mögulegt að fá enn betri leitarniðurstöður. Einn er þó sá þáttur sem kann að hafa áhrif á þennan þátt verkefnisins og leitarniðurstöður not- enda en það er hve margbreytileg íslenskan er. í fyrsta lagi að hún er beygingarmál og það getur haft áhrif á leitarniðurstöður því stafsetning t. d. nafnorða getur verið mismunandi eftir því í hvaða falli þau eru og hvort þau eru í eintölu eða fleirtölu. Öðru lagi hefur að stafsetning breyst frá því á 18. öld - en elstu tímaritin er frá þeim tíma - og fram á þá tuttugustu. Það er þó hins vegar von okkar að allir þeir leitar- möguleikar sem boðið er upp á komi til að gefa not- endum raunhæfa niðurstöður og þeir finni það sem þeir eru að leita að. Virðisauki textans Þegar tveir síðustu þættir verkefnisins, textaleit og greinaskráning, hafa verið sameinaðir hafa notendur aðgang að efni sem til þessa hefur verið þeim sem lokuð bók. Hér erum við þá komin með í hendur miklu verðmætari texta sem nýtist notendum við hvers kyns rannsóknir og þeir fá aðgang að innihaldi blaðanna. BÓKASAFNIÐ 27. ÁRG. 2003 67

Síða 1
Síða 2
Síða 3
Síða 4
Síða 5
Síða 6
Síða 7
Síða 8
Síða 9
Síða 10
Síða 11
Síða 12
Síða 13
Síða 14
Síða 15
Síða 16
Síða 17
Síða 18
Síða 19
Síða 20
Síða 21
Síða 22
Síða 23
Síða 24
Síða 25
Síða 26
Síða 27
Síða 28
Síða 29
Síða 30
Síða 31
Síða 32
Síða 33
Síða 34
Síða 35
Síða 36
Síða 37
Síða 38
Síða 39
Síða 40
Síða 41
Síða 42
Síða 43
Síða 44
Síða 45
Síða 46
Síða 47
Síða 48
Síða 49
Síða 50
Síða 51
Síða 52
Síða 53
Síða 54
Síða 55
Síða 56
Síða 57
Síða 58
Síða 59
Síða 60
Síða 61
Síða 62
Síða 63
Síða 64
Síða 65
Síða 66
Síða 67
Síða 68
Síða 69
Síða 70
Síða 71
Síða 72
Síða 73
Síða 74
Síða 75
Síða 76
Síða 77
Síða 78
Síða 79
Síða 80
Síða 81
Síða 82
Síða 83
Síða 84
Síða 85
Síða 86
Síða 87
Síða 88

Bókasafnið

Bókasafnið

Beinleiðis leinki