Bókasafnið - 01.06.2014, Blaðsíða 71
Bókasafnið 38. árg. 2014
71
sem ekki hefur tekist að ljóslesa. Til
staðfestingar á því að orðið sé rétt
þýtt þurfa að meðaltali fimm ein
staklingar að slá inn sama orðið.
Luis Von Ahn hefur því hannað
einstaklega hugvitsamt kerfi sem
dregur úr ruslpósti á netinu og á
sama tíma bætir ljóslestur bóka. Ár
ið 2013 var áætlað að ígildi um
250.000 vinnustunda færu í þessa
vinnu gegnum reCAPTCHA á degi
hverjum! ﴾MayerSchönberger og
Cukier, 2013, bls. 9899﴿. Í grein
sinni í síðasta tölublaði Bókasafns
ins nefndi Óli Gneisti Sóleyjarson
﴾2013﴿ slíka vinnu lýðvistun ﴾e.
crowdsourcing﴿ sem er að mati höf
undar prýðileg þýðing.
Magn og umfang
Í tölvuheiminum vísar lögmál
Moores til þess að afkastageta tölvutækni tvöfaldist á um
tveggja ára fresti ﴾það er jafnvel talað um 18 mánaða
frest﴿. Hér er meðal annars átt við vinnslugetu örgjörva,
minnisstærð skyndiminnis og geymslugetu harðra
diska.4 Slíkur vöxtur nefnist veldisvöxtur ﴾sjá mynd 3﴿. Ef
við miðum við að afkastageta venjulegrar heimilistölvu
hafi verið 5 árið 2004 þá væri afkastagetan orðin 160 í
ár, eða 32falt meiri!
Timarit.is, einn af vefjum Landsbókasafns Íslands ‒
Háskólabókasafns, hefur að geyma meira en 4,5 milljón
ir blaðsíðna sem búið er að mynda stafrænt og ljóslesa.
Þar af leiðandi er hægt að leita í texta meirihluta þeirra
tímarita sem komið hafa út á Íslandi frá upphafi.
Möguleikarnir á að nýta sér tölvutæknina til þess að
veita nýja innsýn í þetta efni eru nánast óendanlegir.
Sem dæmi mætti nefna athugun á útbreiðslu og tíðni á
notkun orða og hugtaka, og þar af leiðandi hugmynda,
eftir tíma og landfræðilegri staðsetningu.
Íslenska fyrirtækið Snertill hefur komið upp stórum
gagnagrunnum fyrir fjölda sveitarfélaga á Íslandi þar
sem búið er að tengja landfræðilega staðsetningu húsa
við skannaðar húsateikningar arkitekta.5 Þannig er til
dæmis hægur leikur að slá upp upprunalegum teikning
um Ragnars Emilssonar af Kópavogskirkju frá 1958.
Byggingarfulltrúinn í Reykjavik hefur veitt aðgang að
aðaluppdráttum bygginga í gegnum netið frá því í maí
2013.
Íslenska fyrirtækið DataMarket, sem hefur það að
markmiði að verða „Google fyrir tölur“, hefur hafið útrás
til Bandaríkjanna og stofnað söluskrifstofu í Boston
﴾Fitzgerald, 2013﴿. DataMarket vinnur aðallega við að
safna saman gögnum frá ótal mismunandi rannsóknar
og greiningaraðilum og samræma ﴾e. normalize﴿ gögnin,
viðhalda tengingum við þau og miðla til viðskiptavinanna
í gegnum eina gátt þar sem viðskiptavinurinn getur leit
að, myndbirt, borið saman og síðan sótt gögnin á því
sniði sem best hentar. Mikil eftirspurn er eftir gögnum
DataMarket og eru helstu viðskiptavinir fyrirtækisins
markaðsrannsóknafyrirtæki og ráðgjafafyrirtæki sem
vinna ítarlegar greiningar úr gögnunum.
Það hefur ekki farið mjög hátt að gögn úr Íslensku
kosningarannsókninni hafa verið aðgengileg almenningi
á vef Félagsvísindastofnunar Háskóla Íslands frá árinu
2011. Íslenska kosningarannsóknin var leidd af prófess
or Ólafi Þ. Harðarsyni og er viðamikil rannsókn þar sem
Mynd 2. Þessi reCaptcha birtir orðið „morning“ sem er tekið úr ofangreindum texta og tekst
ekki að ljóslesa. Það þarf því að slá það inn. Seinna orðið, „overlooks“, getur hugbúnaðurinn
ljóslesið en þarf sömuleiðis að slá inn rétt til staðfestingar á því að manneskja sé á ferð.
4 Í grein sinni í Tölvumálum árið 1980 var Páll Jensson ansi sannspár þegar hann skrifaði: „Ljóst er að vélbúnaður verður á næstu árum
og áratugum sífellt ódýrari, hraðvirkari, umfangsminni og áreiðanlegri. Smátölvur og útstöðvar, þar á meðal örþunnir "flatskjáir" ﴾display
panels﴿, verða á flestum skrifstofum og heimilum, og símakerfið mun bjóða upp á flutning upplýsinga innan lands og milli landa á
sérstökum gagnarásum. Sjálfvirk tölvustýring framleiðslu og vélmenna af ýmsu tagi munu einkenna iðnaðinn, bændur fá fóðrunartölvur
og hægri hönd togaraskipstjóra verður tölva með gagnabanka um miðin o.fl.“. Bls. 12.
5 Sjá http://infrapath.is