Bókasafnið


Bókasafnið - 01.01.2003, Side 69

Bókasafnið - 01.01.2003, Side 69
Þegar rit hefur verið skráð í bókfræðigrunn er það tilbúið til myndatöku. í myndvinnslunni verður til ein frummynd sem er á TIF-sniði (þar er myndin óþjöpp- uð og ekkert hefur verið átt við hana og er hún n. k. varðveislueintak í 300 punkta upplausn (dpi)). Þessu næst er búin til mynd á DJVU-sniði en það er sérstak- lega hannað til birtingar á myndum af textaskjölum á Netinu. Það snið hefur reynst mjög vel og þá eru myndirnar einnig mjög litlar - á bilinu 10 til 100 K - sem þykir mjög meðfærilegt til notkunar. Búið er til sérstakt myndasafn sem gagnagrunnur verkefnisins vísar í. Sá þáttur sem ekki má gleymast er að örfilman er einnig viðurkenndur geymslumáti. Hægt er að prenta allar stafrænar myndir á örfilmu og varðveita með þeim hætti. Greinaskráning og efnisorð Vinna við þennan þátt verkefnisins er enn á hug- myndastigi en við vitum hvað við ætlum okkur að fá út úr þessum verkþætti og hvers konar aðgengi skal bjóða notendum upp á. Hér skal búa til leitarbært efnisyfirlit yfir blöðin og tímaritin sem eru á Netinu. Þá þarf í fyrsta lagi er að skrá nafn höfundar, ef það er þekkt, þá titil greinar og gefa henni almennt efnisorð, og hér verður byggt á mjög einföldum efnisorðalista. Á þessu stigi verður ekki miklum tíma eytt í atriði eins og það að finna út hver höfundurinn var. Er það þessi Jón Jónsson eða hinn? Hugmyndin með efnis- orðunum, sem verða einföld, er að geta tengt saman skylt efni sem kann að vera í mörgum öðrum eintök- um af sama blaði eða öðrum blöðum frá sama tíma. Þá er einnig gert ráð fyrir að nota þær upplýsingar sem eru núna í Greini, a. m. k. yfir það efni sem var gefið út á 19. öld. Eins og ég sagði hér að framan þá er þetta allt á hugmyndastigi. Tvær mismunandi aðferðir koma til greina við lausn þessa verkefnis. í fyrsta lagi að greinaskrá blöðin og tímaritin með forritum ellegar tólum sem vinna þetta á sjálfvirkan hátt eftir for- skrift þar sem skimað er vélrænt yfir myndir af blaðsíðunum og borin kennsl á eftir forskrift hvað er t. d. fyrirsögn og hvað er nafn höfundar. Hér er unnið út frá því að tólin læra að þekkja stílsnið blaðanna, þ. e. með hvaða letri er t. d. fyrirsögn prentuð, nafn höf- undar og millifyrirsagnir svo eitthvað sé nefnt. Þetta er að nokkru leyti svipað því hvernig OCR-forritið vinnur. Það sem tólin bera svo kennsl á er síðan merkt með svokallaðri XML-merkingu og verður komið fyrir í leitarbærum gagnagrunni þar sem hægt verður að búa til aðgengilegt efnisyfirlit. í öðru lagi kemur til greina að handmerkja nöfn og fyrirsagnir í þeim texta sem verður til í OCR-vinnslunni (sjá hér að neðan), ásamt því að gefa innihaldinu efnisorð. Þessar merkingar verða með fyrrnefndri XML-merk- ingu og þeim yrði svo varpað inn í gagnagrunninn sem verður þá á sama hátt tengdur myndasafninu og því hægt að stökkva þangað um leið þar sem þessi til- tekna fyrirsögn kemur fyrir. Ávinningurinn af því að búa til efnisyfirlit að blöðunum með þessum hætti er sá að notendur geta betur kynnst efni þeirra blaða og tímarita sem eru og verða í safninu. Textavinnsla og tungutækni Búið verður til stórt leitarbært textasafn og þannig öðlast notendur ýtarlegri aðgang að efninu og þeir geta leitað eftir ákveðnum orðum eða orðasambönd- um. Gerðar hafa verið nokkrar tilraunir við að um- breyta mynd í texta og lofa þær góðu. Niðurstöður hafa stundum verið þær að textinn sem fenginn er með OCR-forritinu er meira en 99% réttur. Fyrir þá sem ekki þekkja hvernig OCR-forrit vinnur er það svo í stuttu máli: Forritið ber kennsl á bókstafi á staf- rænni mynd og lærir að þekkja þá og umbreytir þeim síðan í tölvutækan texta. í upphafi verkefnisins urð- um við að gera okkur grein fyrir því hvaða OCR-forrit væru fær um að leysa þetta verk og vinna með ís- lenska sérstafi, eins og þ og ð. Eftir tilraunir komumst við að því að forrit sem heitir Fine Reader og er frá Rússlandi reyndist best. Við höfum gert tilraunir með nokkur blöð eins og Þjóðólf og Lanztíðindi. Öll blöð frá þessum tíma eiga það sammerkt að vera vel prentuð og pappírinn er í þokkalegu ástandi. Þetta forrit er hægt að „þjálfa" til að þekkja íslenska stafi og síðan hægt að keyra orðalista yfir þann texta sem út úr þessu kemur og leiðrétta hann. Einnig er hægt að nota það sem kallað hefur verið Fuzzy Search eða moðleit til að leita í textanum og þá er mögulegt að fá enn betri leitarniðurstöður. Einn er þó sá þáttur sem kann að hafa áhrif á þennan þátt verkefnisins og leitarniðurstöður not- enda en það er hve margbreytileg íslenskan er. í fyrsta lagi að hún er beygingarmál og það getur haft áhrif á leitarniðurstöður því stafsetning t. d. nafnorða getur verið mismunandi eftir því í hvaða falli þau eru og hvort þau eru í eintölu eða fleirtölu. Öðru lagi hefur að stafsetning breyst frá því á 18. öld - en elstu tímaritin er frá þeim tíma - og fram á þá tuttugustu. Það er þó hins vegar von okkar að allir þeir leitar- möguleikar sem boðið er upp á komi til að gefa not- endum raunhæfa niðurstöður og þeir finni það sem þeir eru að leita að. Virðisauki textans Þegar tveir síðustu þættir verkefnisins, textaleit og greinaskráning, hafa verið sameinaðir hafa notendur aðgang að efni sem til þessa hefur verið þeim sem lokuð bók. Hér erum við þá komin með í hendur miklu verðmætari texta sem nýtist notendum við hvers kyns rannsóknir og þeir fá aðgang að innihaldi blaðanna. BÓKASAFNIÐ 27. ÁRG. 2003 67

x

Bókasafnið

Direkte link

Hvis du vil linke til denne avis/magasin, skal du bruge disse links:

Link til denne avis/magasin: Bókasafnið
https://timarit.is/publication/245

Link til dette eksemplar:

Link til denne side:

Link til denne artikel:

Venligst ikke link direkte til billeder eller PDfs på Timarit.is, da sådanne webadresser kan ændres uden advarsel. Brug venligst de angivne webadresser for at linke til sitet.