编码的发展史

编码的发展说到ASCII，Unicode和UTF-8，可能大家都知道是字符编码，但具体含义，以及其中差异，可能很多人都不知道。一、名称解释ASCII：AmericanStandardCode forInformationInterchange，美国信息互换标准代码。Unicode：统一码、万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。UTF-8：8-bit Unicod

六月·飞雪

3868人浏览 · 2020-05-31 22:26:24

六月·飞雪 · 2020-05-31 22:26:24 发布

编码的发展

说到ASCII，Unicode和UTF-8，可能大家都知道是字符编码，但具体含义，以及其中差异，可能很多人都不知道。

一、名称解释

ASCII：American Standard Code for InformationInterchange，美国信息互换标准代码。

Unicode：统一码、万国码、单一码，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。

UTF-8：8-bit Unicode Transformation Format，是一种针对Unicode的可变长度字符编码。

二、历史变迁

先给大家看一张变迁图：

很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为“字节”。再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很多状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为”计算机“。

开始计算机只在美国使用，八位的字节一共可以组合出256种不同的状态。他们把其中的编号从0开始的32种状态分别规定了特殊的用途，一但终端、打印机遇上约定好的这些字节被传过来时，就要做一些约定的动作。遇上0×10, 终端就换行，遇上0×07, 终端就向人们嘟嘟叫。他们看到这样很好，于是就把这些0×20以下的字节状态称为“控制码”。他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。大家看到这样，都感觉很好，于是大家都把这个方案叫做 ANSI 。

后来，世界各地都开始使用计算机了，但是很多国家用的不是英文，他们的字母里有许多是ASCII里没有的，为了可以在计算机保存他们的文字，他们决定采用 127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。从128 到255这一页的字符集被称“扩展字符集”。

等中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，而且常用汉字有六七千个，这个时候，中国人民就使用了一套汉字方案叫做GB2312”。随着发展，又发现了一些局限，所以就有了GBK，再继续往后增加了一些字符（如少数名族字体），GBK扩成了 GB18030。

因为当时各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码，连大陆和台湾这样只相隔了150海里也使用不同编码。这个时候，出现了一个叫 ISO 组织（国际标准化组织）决定着手解决这个问题。他们采用的方法很简单：废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码！他们打算叫它“Universal Multiple-Octet Coded Character Set”，简称 UCS, 俗称 “Unicode”。

但是Unicode同样也有2个问题:

1.计算机怎么知道二个字节为一个字符，如何识别二个字节为什么一个字符？

2.针对英文字符，如果使用大于1个字节来表示，那么低位的前面几个字节全是0。很奢侈浪费空间，因为现在计算机大部分内容还是英文。

unicode在很长一段时间内无法推广，直到互联网的出现，为解决unicode如何在网络上传输的问题，于是面向传输的众多 UTF（UCS Transfer Format）标准出现了。顾名思义，UTF-8就是每次8个位传输数据，而UTF-16就是每次16个位。UTF-8就是在互联网上使用最广的一种unicode的实现方式，这是为传输而设计的编码，并使编码无国界，这样就可以显示全世界上所有文化的字符了。

三、Charset and Encoding

1.什么是字符编码

Charset (Character set) 字符集：是对字符抽象表示的集合。包括世界上各种文字、符合和字符。

字符集只是一个规则集合的名字，对应到真实生活中，字符集就是对某种语言的称呼。例如：英语，汉语，日语。

2.什么是字符编码

对于一个字符集来说要正确编码转码一个字符需要三个关键元素：字库表（character repertoire）、编码字符集（coded character set）、字符编码（character encoding）。

字库表是一个相当于所有可读或者可显示字符的数据库。字库表决定了整个字符集能够展现表示的所有字符的范围。

编码字符集，即用一个编码值code point来表示一个字符在字库中的位置。

字符编码，将编码字符集和实际存储数值之间的转换关系。

四、UTF-8和Unicode的关系

看完上面两个概念解释，相信你应该明白其中关系了。Unicode就是上文中提到的编码字符集，而UTF-8就是字符编码，即Unicode规则字库的一种实现形式。随着互联网的发展，对同一字库集的要求越来越迫切，Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字，并将为他们编号。