Bókasafnið - 01.06.2015, Síða 9
9
Bókasafnið 39. árg. 2015
aðgengilegri en áður og notendavænni og flest tengjast þau
merkingarvefnum með einum eða öðrum hætti. Allar merk-
ingareiningar RDA (orðaforðinn eða vocabulary) hafa verið
kóðaðar og merktar í Open Metadata Registry. Þar með eru
þær aðgengilegar og nýtanlegar á vefnum. Strax árið 2009 birti
Library of Congress hluta úr nafnmyndaskrá sinni á gagnasniði
sem nýtist á merkingarvefnum (Library of Congress. LC Linked
Data Service: Authorities and Vocabularies).2 Sífellt fleiri nafn-
myndagögn eru nú aðgengileg á merkingarvefnum, til dæmis
fyrir persónur og landfræðiheiti. ISNI-staðallinn (International
Standard Name Identifier) og alþjóðlega nafnmyndaskráin
VIAF (Virtual International Autority File) eru mikilvægar uppi-
stöður fyrir merkingarvefinn.
Hvað er merkingarvefurinn?
Heilinn á bakvið Internetið, Tim Berners-Lee, hefur hvatt mjög
til þess að merkingarvefurinn með sínum samtengdu gögnum
verði þróaður áfram. Segja má að Netið snúist um að tengja
saman tölvur. Veraldarvefurinn gerir tölvum kleift að tengja
saman skjöl (e. documents). Á Netinu getum við skotist milli
skjala og lesið þau án tillits til þess hvar þau eru staðsett. Merk-
ingarvefurinn tekur þessa hugsun aðeins lengra og gerir okkur
kleift að tengjast gögnum frekar en skjölum. Með orðum Ber-
ners-Lee (2007): „Það eru ekki sjálf skjölin sem eru mikilvæg,
heldur það sem þau fjalla um“.3 Tilgangurinn með samtengd-
um gögnum er sá að gera þau samnýtanleg; að aðrir geti end-
urnýtt þau og tengt við þau. Þannig er hægt að uppgötva
önnur gögn og sjá nýja fleti á viðfangsefnunum.
Eitt grundvallaratriði merkingarvefsins er veffangið eða URI-
auðkennið (Unified Resource Identifier) sem ber kennsl á eða
skilgreinir gögn og tengsl þeirra. Auðkennið er eins konar
kennimark gagnanna, algerlega einstakt og heldur utan um
upplýsingar um fólk, staði, viðburði og fleira. Vefurinn eins og
við þekkjum hann í dag tengir saman skjöl og vefsíður sem við
mannfólkið getum lesið. Vegna tæknilegra takmarkana og
vegna þess að hugtakanotkun eldri lýsigagna býður ekki uppá
vélrænan aflestur, hentar veraldarvefurinn ekki vel til að tengja
saman gögn sem tölvur geta lesið. Eitt aðalmarkmið merking-
arvefsins er að gera gögnin þannig úr garði að tölvur geti lesið
þau. Hann tengir saman gögn en ekki vefsíður og notar vef-
fang til þess. (Alemu, Stevens, Ross og Chandler, 2012, bls. 453).
Í Tölvuorðasafni (2013) er merkingarvefur skilgreindur sem
„Vefur gagna með vel skilgreinda merkingu, hugsaður sem
viðauki við veraldarvefinn, þar sem tölvum er gert kleift að
vinna úr merkingu gagna ýmist sjálfstætt eða í samvinnu við
fólk.“ Hugtök merkingarvefsins eiga sér ekki íslensk heiti nema
að litlu leyti. Það sama á við um hugtök FRBR-hugtakalíkansins
og nýju skráningarreglnanna, RDA.
Gögn merkingarvefsins eru enn sem komið er varla aðgengi-
leg almenningi. Það vantar notendavænt viðmót fyrir fólk sem
ekki hefur forritunarþekkingu. Segja má að merkingarvefurinn
sé nú á því stigi sem veraldarvefurinn var á áður en vefskoðarar
komu til sögunnar (Alemu o.fl., 2012). Á merkingarvef er beitt
sérstakri tækni við að setja fram samtengd gögn. Þessar aðferð-
ir eru margar og margskonar og hér eru örfá dæmi.
RDF (Resource Description Framework) er stöðluð aðferð
til að miðla gögnum á vef og er notuð til að lýsa hugtaki eða
hlut. RDF er samsett úr þremur einingum og myndar þrenn-
ingu (triplet) (W3C Semantic Web, e.d.). Þrenningin er eins
konar setning eða fullyrðing og líkist þeim grunneiningum
sem við þekkjum úr setningafræðinni, frumlag, umsögn og
andlag. Frumlag/gerandi à umsögn/eiginleikar à andlag/
viðfang. Dæmi um slíkt er setningin Gerpla à á sér höfund à
Halldór Laxness. Með öðrum orðum: Gerpla = gerandi eða
fyrirbæri, á sér höfund = eiginleiki og Halldór Laxness = við-
fang. Á ensku: Subject à Predicate eða Property à Object eða
Value. Eiginleikinn (property) þarf að vera skilgreindur í RDF.
Hver eining þrenningarinnar á sitt eigið veffang sem gerir það
að verkum að hægt er miðla gögnum og tengja þau saman
í ólíkum gagnasöfnum og kerfum. Þrenningin lýsir tengslum
eininganna. Gerandinn er sú eining sem um er rætt, viðfangið
er það sem sagt er um gerandann og eiginleikar eru tengslin
milli þeirra (Coyle, 2012, bls. 11).4 Raunverulegt dæmi um
RDF-þrenningu er:
<http://libris.kb.se/resource/auth/94541>rdf:sameAs
<http://dbpedia.org/resource/August_Strindberg> og þýðir
að nafnmyndafærsla 94541 í Libris vísar til þess sama og til-
tekin færsla í dbpedia; þær eiga báðar við Ágúst Strindberg.
Þær eru tengdar saman (Malmsten, 2009).
OWL, Web Ontology Language er byggt ofan á RDF og
skilgreinir samband orðaforða merkingarvefsins eins og
„equivalentClass“, „sameAs“, „differentFrom“, „inverseOf“.
SKOS, Simple Knowledge Organizational System er not-
að til að setja fram flokkunarkerfi, kerfisbundna efnisorða-
lykla, flokkunarfræðileg hugtök, efnisorð og annað þessháttar
sem þarf að setja í stigveldi. Þar eru skilgreindir merkimiðar
fyrir þrengri, víðari og skyld heiti eins og tíðkast í efnisorða-
lyklum og þar með verða til gagnkvæm tengsl. Þar er einnig
hægt að setja fram skilgreiningar, umfangslýsingar eða leið-
beiningar um notkun, dæmi um notkun og sögulegar upp-
lýsingar um notkun hugtaksins og hvernig það hefur breyst í
gegnum tíðina. Með OWL og SKOS er hægt að skilgreina
margs konar tengsl milli eininda, til dæmis að tiltekin talna-
runa sé kennimark ákveðins einstaklings (ISNI og VIAF).
SPARQL, PROTOCOL RDF QueRy LAnguAge er leitar-
mál ekki ósvipað og sql er fyrir vefinn og er notað til fyrir-
spurnar í þrenningu rdf. það ákvarðar hvernig leitarniður-
stöður eru settar fram á vefnum.
2. Sjá verkefni Library of Congress á vef þess, LC Linked Data Service: Authorities and Vocabularies: http://id.loc.gov/.
3. „It‘s not the documents, it is the things they are about which is important.“ (Berners-Lee, 2007).
4. „The subject is what you are talking about, the object is what you are saying about it, and the predicate is a werb-like connector that states
meaningfully what links the subject and object“ (Coyle, 2012).