独霸编码,笑傲江湖──ASCII与Unicode间的分分合合
|
|
|
|
为了整合电子位信息交换的共同标准,统一全球各国分歧殊异的文字符号,独霸全球字符编码标准,ASCII与Unicode的分分合合就此展开........ |
|
|
|
|
1960年代初期,美国国会图书馆(Library of Congress;LC)筹划研拟自动编目格式,James Agenboard等人为此开始制订英文的字符集与交换码,作为图书馆界书目交换的共同标准。LC交换码遂成为美国信息交换标准码ASCII(American Standard Code for Information Interchange)的雏形。
1968年美国国家标准局特别制定了ASCII码,作为计算机数据传输的标准码。ASCII的功能在整合电子位信息交换的共同编码标准,藉由IT产业呼吁使用同一套信息交换码标准的契机,进而统一全球各国分歧殊异的文字符号,迈向信息流通一体化的目标。1984年4月,国际标准化组织ISO(International Standards Organization)的一些会员国发起制定新的国际计算机字符的编码标准,由小组ISO/IECJTC1/SC2/WG2(简称WG2)主持,针对各国文字符号进行统一性编码的研发工作,最后定案的标准名为Universal Multiple-Octet Coded Character Set(简称UCS),编号则订为ISO/IEC 10646,进一步成为全球计算机字符的编码标准。
ASCII的运作逻辑是奠定在「每一字符都有一数字码对应」的基础上。计算机显示的文字与储存数据之间都有一个对照表,这个表就是ASCII字码表。数字码亦称为内码(Code),ASCII 内码由 0至127 的数字组成,其中0到31是系统句柄(例如ASCII码7会使计算机发出哔哔的声响);32至127是文字数字或特殊符号的句柄(例如ASCII码 65会显示英文字母 A)。过去ASCII使用7个位来表示英文字母、数字0至9以及其他符号,后来最高的位也编入这套内码中,成为八个位的延伸ASCII (Extended ASCII),加上许多外文和表格符号,共可表示2^8=256个不同的文字符号。这套内码便是1977年所制订编号ANSI X3.4的版本,也是UNIX操作系统和以DOS为基础的操作系统普遍使用的编码标准。
ASCII以0到255,也就是8个0与1的二进制数来代表相对应的字。譬如字符「a」的二进制代码是「01100001」,若用十进制表达是97;在计算机内部传输或储存时「a」都是数字97,但是要显示于银幕时,ASCII字码表会去数据库中抓出「a」的字型图样,然后在屏幕显示「a」。现今计算机使用英文内码在 128至255 的码区,收录了一些欧语系的字码,但是这些并不算是标准的ASCII 字符,因此被称为「图形字符集」(Semi-Graphics Character)。
1984年ISO10646草案初稿一经公布,编码结构立即遭到美国部份大型计算机业者的反对。由于ASCII字码表是以8个位为基础,只能显示256个字对照的限制,对于中文与其他外文来说自然不够,于是一个可对应世界各国文字、以更多位为基础、可对照更多个字数的通用编码的字码表,便成为各界不约而同的期盼。1988年初,美国Xerox公司及Apple 工程师小组,在Joe Becker为首领导下,倡议新的编码结构,另外编订全球字符编码标准,将计算机字码表编码的基本单位,由先前的7或8个位,扩增为16个位、65536个字数的编码空间,以容纳全球各语言的字符和常用符号。这个新的计算机字码表编码标准就被命名为Unicode。
Unicode草案第1版于1989年9月发表。1991年1月,由IBM、DEC、Sun、Xerox、Apple、Microsoft、Novell等十多家计算机软硬件厂商与网络信息服务业者,共同出资成立了Unicode协会(The Unicode Consortium),并由协会设立非营利的Unicode公司。协会成立之后,将原先的工作小组扩编为Unicode技术委员会(Unicode Technical Committee),专责Unicode的字符搜集、整理、编码等工作。另外推动Unicode成为国际标准的工作,则由Unicode公司负责。1991、92年协会出版了Unicode标准第1版(The Unicode Standard v1.0)。
在Unicode协会持续游说和施压后,WG2终于放弃原先选择的ISO2022的8位延伸编码结构,改采Unicode的编码方式。经过数月的协商谈判,1991年10月,WG2和Unicode协会达成协议,将Unicode并入ISO10646,各国语言字符的搜集、整理和编码等工作就转由WG2主导,Unicode协会则扮演协助WG2的角色,但双方依然可各自出版自己的编码标准。1992年6月Unicode 协会通过DIS(Draft International Standard),1996年正式公布ISO10646的Unicode v1.0,Microsoft 的Windows操作系统便以Unicode为编码基础。
ASCII字码符号并未因此落伍。它还透过艺术家的巧夺天工,变成传递到用户计算机前的视觉素材,成为后工业时代其中一种创意无限的图案拼贴艺术。
|