Bókasafnið


Bókasafnið - 01.01.2003, Blaðsíða 69

Bókasafnið - 01.01.2003, Blaðsíða 69
Þegar rit hefur verið skráð í bókfræðigrunn er það tilbúið til myndatöku. í myndvinnslunni verður til ein frummynd sem er á TIF-sniði (þar er myndin óþjöpp- uð og ekkert hefur verið átt við hana og er hún n. k. varðveislueintak í 300 punkta upplausn (dpi)). Þessu næst er búin til mynd á DJVU-sniði en það er sérstak- lega hannað til birtingar á myndum af textaskjölum á Netinu. Það snið hefur reynst mjög vel og þá eru myndirnar einnig mjög litlar - á bilinu 10 til 100 K - sem þykir mjög meðfærilegt til notkunar. Búið er til sérstakt myndasafn sem gagnagrunnur verkefnisins vísar í. Sá þáttur sem ekki má gleymast er að örfilman er einnig viðurkenndur geymslumáti. Hægt er að prenta allar stafrænar myndir á örfilmu og varðveita með þeim hætti. Greinaskráning og efnisorð Vinna við þennan þátt verkefnisins er enn á hug- myndastigi en við vitum hvað við ætlum okkur að fá út úr þessum verkþætti og hvers konar aðgengi skal bjóða notendum upp á. Hér skal búa til leitarbært efnisyfirlit yfir blöðin og tímaritin sem eru á Netinu. Þá þarf í fyrsta lagi er að skrá nafn höfundar, ef það er þekkt, þá titil greinar og gefa henni almennt efnisorð, og hér verður byggt á mjög einföldum efnisorðalista. Á þessu stigi verður ekki miklum tíma eytt í atriði eins og það að finna út hver höfundurinn var. Er það þessi Jón Jónsson eða hinn? Hugmyndin með efnis- orðunum, sem verða einföld, er að geta tengt saman skylt efni sem kann að vera í mörgum öðrum eintök- um af sama blaði eða öðrum blöðum frá sama tíma. Þá er einnig gert ráð fyrir að nota þær upplýsingar sem eru núna í Greini, a. m. k. yfir það efni sem var gefið út á 19. öld. Eins og ég sagði hér að framan þá er þetta allt á hugmyndastigi. Tvær mismunandi aðferðir koma til greina við lausn þessa verkefnis. í fyrsta lagi að greinaskrá blöðin og tímaritin með forritum ellegar tólum sem vinna þetta á sjálfvirkan hátt eftir for- skrift þar sem skimað er vélrænt yfir myndir af blaðsíðunum og borin kennsl á eftir forskrift hvað er t. d. fyrirsögn og hvað er nafn höfundar. Hér er unnið út frá því að tólin læra að þekkja stílsnið blaðanna, þ. e. með hvaða letri er t. d. fyrirsögn prentuð, nafn höf- undar og millifyrirsagnir svo eitthvað sé nefnt. Þetta er að nokkru leyti svipað því hvernig OCR-forritið vinnur. Það sem tólin bera svo kennsl á er síðan merkt með svokallaðri XML-merkingu og verður komið fyrir í leitarbærum gagnagrunni þar sem hægt verður að búa til aðgengilegt efnisyfirlit. í öðru lagi kemur til greina að handmerkja nöfn og fyrirsagnir í þeim texta sem verður til í OCR-vinnslunni (sjá hér að neðan), ásamt því að gefa innihaldinu efnisorð. Þessar merkingar verða með fyrrnefndri XML-merk- ingu og þeim yrði svo varpað inn í gagnagrunninn sem verður þá á sama hátt tengdur myndasafninu og því hægt að stökkva þangað um leið þar sem þessi til- tekna fyrirsögn kemur fyrir. Ávinningurinn af því að búa til efnisyfirlit að blöðunum með þessum hætti er sá að notendur geta betur kynnst efni þeirra blaða og tímarita sem eru og verða í safninu. Textavinnsla og tungutækni Búið verður til stórt leitarbært textasafn og þannig öðlast notendur ýtarlegri aðgang að efninu og þeir geta leitað eftir ákveðnum orðum eða orðasambönd- um. Gerðar hafa verið nokkrar tilraunir við að um- breyta mynd í texta og lofa þær góðu. Niðurstöður hafa stundum verið þær að textinn sem fenginn er með OCR-forritinu er meira en 99% réttur. Fyrir þá sem ekki þekkja hvernig OCR-forrit vinnur er það svo í stuttu máli: Forritið ber kennsl á bókstafi á staf- rænni mynd og lærir að þekkja þá og umbreytir þeim síðan í tölvutækan texta. í upphafi verkefnisins urð- um við að gera okkur grein fyrir því hvaða OCR-forrit væru fær um að leysa þetta verk og vinna með ís- lenska sérstafi, eins og þ og ð. Eftir tilraunir komumst við að því að forrit sem heitir Fine Reader og er frá Rússlandi reyndist best. Við höfum gert tilraunir með nokkur blöð eins og Þjóðólf og Lanztíðindi. Öll blöð frá þessum tíma eiga það sammerkt að vera vel prentuð og pappírinn er í þokkalegu ástandi. Þetta forrit er hægt að „þjálfa" til að þekkja íslenska stafi og síðan hægt að keyra orðalista yfir þann texta sem út úr þessu kemur og leiðrétta hann. Einnig er hægt að nota það sem kallað hefur verið Fuzzy Search eða moðleit til að leita í textanum og þá er mögulegt að fá enn betri leitarniðurstöður. Einn er þó sá þáttur sem kann að hafa áhrif á þennan þátt verkefnisins og leitarniðurstöður not- enda en það er hve margbreytileg íslenskan er. í fyrsta lagi að hún er beygingarmál og það getur haft áhrif á leitarniðurstöður því stafsetning t. d. nafnorða getur verið mismunandi eftir því í hvaða falli þau eru og hvort þau eru í eintölu eða fleirtölu. Öðru lagi hefur að stafsetning breyst frá því á 18. öld - en elstu tímaritin er frá þeim tíma - og fram á þá tuttugustu. Það er þó hins vegar von okkar að allir þeir leitar- möguleikar sem boðið er upp á komi til að gefa not- endum raunhæfa niðurstöður og þeir finni það sem þeir eru að leita að. Virðisauki textans Þegar tveir síðustu þættir verkefnisins, textaleit og greinaskráning, hafa verið sameinaðir hafa notendur aðgang að efni sem til þessa hefur verið þeim sem lokuð bók. Hér erum við þá komin með í hendur miklu verðmætari texta sem nýtist notendum við hvers kyns rannsóknir og þeir fá aðgang að innihaldi blaðanna. BÓKASAFNIÐ 27. ÁRG. 2003 67
Blaðsíða 1
Blaðsíða 2
Blaðsíða 3
Blaðsíða 4
Blaðsíða 5
Blaðsíða 6
Blaðsíða 7
Blaðsíða 8
Blaðsíða 9
Blaðsíða 10
Blaðsíða 11
Blaðsíða 12
Blaðsíða 13
Blaðsíða 14
Blaðsíða 15
Blaðsíða 16
Blaðsíða 17
Blaðsíða 18
Blaðsíða 19
Blaðsíða 20
Blaðsíða 21
Blaðsíða 22
Blaðsíða 23
Blaðsíða 24
Blaðsíða 25
Blaðsíða 26
Blaðsíða 27
Blaðsíða 28
Blaðsíða 29
Blaðsíða 30
Blaðsíða 31
Blaðsíða 32
Blaðsíða 33
Blaðsíða 34
Blaðsíða 35
Blaðsíða 36
Blaðsíða 37
Blaðsíða 38
Blaðsíða 39
Blaðsíða 40
Blaðsíða 41
Blaðsíða 42
Blaðsíða 43
Blaðsíða 44
Blaðsíða 45
Blaðsíða 46
Blaðsíða 47
Blaðsíða 48
Blaðsíða 49
Blaðsíða 50
Blaðsíða 51
Blaðsíða 52
Blaðsíða 53
Blaðsíða 54
Blaðsíða 55
Blaðsíða 56
Blaðsíða 57
Blaðsíða 58
Blaðsíða 59
Blaðsíða 60
Blaðsíða 61
Blaðsíða 62
Blaðsíða 63
Blaðsíða 64
Blaðsíða 65
Blaðsíða 66
Blaðsíða 67
Blaðsíða 68
Blaðsíða 69
Blaðsíða 70
Blaðsíða 71
Blaðsíða 72
Blaðsíða 73
Blaðsíða 74
Blaðsíða 75
Blaðsíða 76
Blaðsíða 77
Blaðsíða 78
Blaðsíða 79
Blaðsíða 80
Blaðsíða 81
Blaðsíða 82
Blaðsíða 83
Blaðsíða 84
Blaðsíða 85
Blaðsíða 86
Blaðsíða 87
Blaðsíða 88

x

Bókasafnið

Beinir tenglar

Ef þú vilt tengja á þennan titil, vinsamlegast notaðu þessa tengla:

Tengja á þennan titil: Bókasafnið
https://timarit.is/publication/245

Tengja á þetta tölublað:

Tengja á þessa síðu:

Tengja á þessa grein:

Vinsamlegast ekki tengja beint á myndir eða PDF skjöl á Tímarit.is þar sem slíkar slóðir geta breyst án fyrirvara. Notið slóðirnar hér fyrir ofan til að tengja á vefinn.