Tölvumál - 01.12.1991, Qupperneq 8
Desember 1991
Þjöppunarform 1-4 voru aðallega
ætluð til vinnslu gagna en form 5
til gagnaflutnings og til notkunar
á geymslumiðlum til langs tíma.
Að síðustu skal nefndur sá
eiginleiki DIS 10646 að hvorki
laus stafmerki (diacritics) né
önnur rittákn án færslu (non-
spacing), voru leyfð í latínu-
kyrillisku og grísku letri (öðru
máli gegnir um arabískt og
hebreskt letur). Allir þekktir
merktir stafir voru því kódaðir
hver fyrir sig. Kostirnir við
þessa tilhögun voru þeir að allir
stafir eru táknaðir með jafn
mörgum bætum (hve mörgum
fer eftir þjöppunarformi), og
jafnframt er táknmengið í ISO
10646 fyllilega skilgreint og
endanlegt að stærð.
Unicode
Síðastliðin 3 ár hefur hópur á
vegum nokkurra þekktra tölvu-
ífamleiðenda - upphaflega Xerox,
Apple og Microsoft - unnið að
því að semja stafatöflu sem komið
gæti í staðinn fyrir ISO 10646.
Þessi tafla hefur hlotið heitið
Unicode. Unicode-samsteypan,
sem er opin en algerlega á vegum
fyrirtækjanna, hóf í árslok 1990
töluvert öfluga markaðssetningu
þessarar stafatöflu, sem þó var
alls ekki endanlega skilgreind.
Unicode er í mörgum mikil-
vægum atriðum frábrugðinn DIS
10646. Eftirfarandi atriði skipta
mestu máli:
* Unicode er 16 bita stafa-
tafla með 65.536 sætum fyrir
tákn. DIS 10646 var eins og
áður er fram komið 32 bita
stafatafla með 1,3 milljarða
nothæfra sæta.
* í Unicode eru engin
þjöppunarform skilgreind. Hver
stafur er ávallt táknaður með
sömu bitaröð.
* í Unicode er engin C0-
C1 takmörkun. Þar má því nota
öll 65.536 sætin (þó að 65 sætum
undanteknum) fyrir rittákn.
* í Unicode er notkun
lausra stafmerkja og rittákna án
færslu heimil. Stafinn "Á" má
til dæmis tákna annað hvort með
einni lóbitaröðfyrirbókstafinn
samsettan eða með bitaröðinni
fyrir "A" og þar á effir bitaröðinni
fyrir "°" án færslu. í síðara
tilvikinu væri stafurinn "Á"
táknaður með 32 bitum.
* í Unicode er notuð
samræmd CJK-kódun. Það þýðir
að sama kódun er notuð fyrir
tiltekið kfnverskt, japanskt og
kóreskt myndtákn ef það er af
sama sögulegum uppruna í öllum
málunum.
Andstæð sjónarmið
Engan þarf að undra þótt upp
hafí komið á milli boðbera þessara
tveggja hugmyndakerfa nokkur
samkeppni, trúnaðarbrestur og
reyndar á köflum fullkomið
sambandsleysi. Mörgum þótti
horfa í illt efni, og væri hollt að
minnast þeirrar skiptingar í
ósamhæfð kerfi sem allir þekkja
á milli ASCII og EBCDIC, ISO
6937 og ISO 8859, Macintosh
oglBMPC. Snemmaáþessu ári
voru gerðar að minnsta kosti
tvær tilraunir til að sameina
töflurnar, önnur að undirlagi
ECMA (European computer
manufacturers association), hin
af hálfu Kanada.
Fundur í San
Francisco
í tengslum við fund í WG2 í San
Francisco í maí slðastliðnum kom
Ed Hart (SHARE) á óformlegum
umræðum á milli fulltrúa frá
WG2 og Unicode þar sem öllum
til óvæntrar ánægju tókst sam-
komulag um að stefna bæri að
eftirfarandimarkmiði: aðsteypa
DIS 10646 og Unicode saman í
eina tillögu, nefnda 10646M
(M=merger), sem orðið gæti
alþjóðlegur staðall að aflokinni
atkvæðagreiðslu í ISO-sam-
tökunum. Nokkrir óformlegir
vinnuhópar voru myndaðir og
verkefnum deilt út til undir-
búnings fúndar WG2 í Genf síðari
hluta ágústmánaðar.
í San Francisco var samþykkt
mótatkvæðalaust að hin nýja
tillaga að DIS 10646 skyldi
byggjast á eftirfarandi megin-
atriðum:
1) Hvert sæti verður
endanlega táknað með 4 bætum.
2) Cl-takmörkunin er num-
in úr gildi. CO-takmörkuninni
verður einnig aflétt ef tilkvödd
nefnd sérfræðinga í gagna-
samskiptum telur það gerlegt.
3) Sameinuð CJK-kódun
verður innleidd í BMP, en sérstök
örk verður auk þess tekin frá
fyrir myndtákn í japönsku.
4) Um tvo valkosti verður
að ræða í 10646M hvað varðar
stafmerki og rittákn án færslu.
Velja má um annaðhvort að banna
þau eða leyfa notkun þeirra
samkvæmt sömu grundvallar-
reglum og nú er fyrirskrifað í
Unicode.
5) Mengi rittákna í Unicode
og DIS 10646 verða sameinuð.
6) Þjöppunarform 2 og 4
verða áfram til.
Genfarfundurinn
WG2 kom saman til aukafúndar
I Genf 19. til 27. ágúst í þeim
tilgangi að koma hinni sameinuðu
8 - Tölvumál