ASCII 、UTF-8、Unicode都是个啥啊，为啥会乱码啊？

2024-03-03 20:39:55 阅读 0

ASCII、UTF-8、都是个啥啊，为何会乱码啊？

由于计算机只能处理数字，假如要处理文本，就必须先把文本转换为数字能够处理。最早的计算机在设计时采用8个比特（bit）作为一个字节（byte），所以，一个字节能表示的最大的整数就是255（二补码=十补码255），假如要表示更大的整数，就必须用更多的字节。例如两个字节可以表示的最大整数是65535，4个字节可以表示的最大整数是。

因为计算机是英国人发明的，因而，最早只有127个字符被编码到计算机里，也就是大小写中文字母、数字和一些符号，这个编码表被称为ASCII编码，例如小写字母A的编码是65，大写字母z的编码是122。

然而要处理英文其实一个字节是不够的，起码须要两个字节，并且还不能和ASCII编码冲突，所以，中国制订了编码，拿来把英文编进去。

你可以想得到的是，全世界有上百种语言，美国把英文编到里，美国把英文编到Euc-kr里，各国有各国的标准，都会不可防止地出现冲突，结果就是，在多语言混和的文本中，显示下来会有乱码。

因而，应运而生。把所有语言都统一到一套编码里，这样就不会再有乱码问题了。

标准也在不断发展，但最常用的是用两个字节表示一个字符（假如要用到特别偏远的字符，就须要4个字节）。现代操作系统和大多数编程语言都直接支持。

如今，捋一捋ASCII编码和编码的区别：ASCII编码是1个字节，而编码一般是2个字节。

字母A用ASCII编码是十补码的65，二补码的；

字符0用ASCII编码是十补码的48，二补码的，注意字符'0'和整数0是不同的；

汉字中早已超出了ASCII编码的范围，用编码是十补码的20013，二补码的01101。

你可以推测，假如把ASCII编码的A用编码，只须要在上面补0就可以，为此，A的编码是00001。

新的问题又出现了：假如统一成编码，乱码问题自此消失了。并且，假如你写的文本基本上全部是英语的话，用编码比ASCII编码须要多一倍的储存空间，在储存和传输上就非常不实惠。

所以，本着节省的精神，又出现了把编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个字符依照不同的数字大小编码成1-6个字节，常用的英语字母被编码成1个字节，汉字一般是3个字节，只有很冷僻的字符就会被编码成4-6个字节。假如你要传输的文本包含大量中文字符，用UTF-8编码能够节约空间：

字符-8

00001

中

01101

从前面的表格还可以发觉，UTF-8编码有一个额外的益处，就是ASCII编码实际上可以被看成是UTF-8编码的一部份，所以，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

认清楚了ASCII、和UTF-8的关系，我们就可以总结一下现今计算机系统通用的字符编码工作方法：

在计算机显存中，统一使用编码，当须要保存到硬碟或则须要传输的时侯，就转换为UTF-8编码。

用记事本编辑的时侯，从文件读取的UTF-8字符被转换为字符到显存里，编辑完成后，保存的时侯再把转换为UTF-8保存到文件：

浏览网页的时侯，服务器会把动态生成的内容转换为UTF-8再传输到浏览器：

所以你看见好多网页的源码上会有类似的信息，表示该网页正是用的UTF-8编码。

的字符串

认清楚了令人头痛的字符编码问题后，我们再来研究的字符串。

在最新的3版本中，字符串是以编码的，也就是说，的字符串支持多语言，比如：

>>> print('包含中文的str')
包含中文的str

对于单个字符的编码，提供了ord()函数获取字符的整数表示，chr()函数把编码转换为对应的字符：

>>> ord('A')65>>> ord('中')20013>>> chr(66)'B'>>> chr(25991)'文'

假如晓得字符的整数编码，还可以用十六补码如此写str：

>>> '\u4e2d\u6587''中文'

两种写法完全是等价的。

因为的字符串类型是str，在显存中以表示，一个字符对应若干个字节。假如要在网路上传输，或则保存到c盘上，就须要把str变为以字节为单位的bytes。

对bytes类型的数据用带b前缀的单冒号或双冒号表示：

x = b'ABC'

要注意分辨'ABC'和b'ABC'，后者是str，前者即使内容显示得和后者一样，但bytes的每位字符都只占用一个字节。

以表示的str通过()方式可以编码为指定的bytes，比如：

>>> 'ABC'.encode('ascii')
b'ABC'
>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
>>> '中文'.encode('ascii')
Traceback (most recent call last):
 File "", line 1, in UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

纯中文的str可以用ASCII编码为bytes，内容是一样的，富含英文的str可以用UTF-8编码为bytes。富含英文的str难以用ASCII编码，由于英文编码的范围超过了ASCII编码的范围，会报错。

在bytes中，未能显示为ASCII字符的字节，用\x##显示。

反过来，假如我们从网路或c盘上读取了字节流，这么读到的数据就是bytes。要把bytes变为str，就须要用()方式：

>>> b'ABC'.decode('ascii')'ABC'>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')'中文'

假如bytes中包含难以解码的字节，()方式会报错：

>>> b'\xe4\xb8\xad\xff'.decode('utf-8')
Traceback (most recent call last):
 ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

假如bytes中只有一小部份无效的字节，可以传入=''忽视错误的字节：

>>> b'\xe4\xb8\xad\xff'.decode('utf-8', errors='ignore')'中'

要估算str包含多少个字符，可以用len()函数：

>>> len('ABC')3>>> len('中文')2

len()函数估算的是str的字符数，倘若换成bytes，len()函数就估算字节数：

>>> len(b'ABC')3>>> len(b'\xe4\xb8\xad\xe6\x96\x87')6>>> len('中文'.encode('utf-8'))6

可见，1个英文字符经过UTF-8编码后一般会占用3个字节，而1个中文字符只占用1个字节。

在操作字符串时，我们常常碰到str和bytes的相互转换。为了防止乱码问题，应该仍然坚持使用UTF-8编码对str和bytes进行转换。

因为源代码也是一个文本文件，所以，当你的源代码中包含英文的时侯，在保存源代码时，就须要勿必指定保存为UTF-8编码。当类库读取源代码时，为了让它按UTF-8编码读取，我们一般在文件开头写上这两行：

#!/usr/bin/env python3# -*- coding: utf-8 -*-

第一行注释是为了告诉Linux/OSX系统，这是一个可执行程序，系统会忽视这个注释；

第二行注释是为了告诉类库，根据UTF-8编码读取源代码，否则，你在源代码中写的英文输出可能会有乱码。

声明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的，必须而且要确保文本编辑器正在使用UTF-8BOM编码：

假如.py文件本身使用UTF-8编码，而且也声明了#-*-:utf-8-*-，打开命令提示符测试就可以正常显示英文：

低格

最后一个常见的问题是怎样输出低格的字符串。我们常常会输出类似'亲爱的xxx您好！你xx月的话费是xx，余额是xx'之类的字符串，而xxx的内容都是按照变量变化的，所以，须要一种简便的低格字符串的形式。

在中，采用的低格方法和C语言是一致的，用%实现，举例如下：

>>> 'Hello, %s' % 'world''Hello, world'>>> 'Hi, %s, you have $%d.' % ('Michael', 1000000)'Hi, Michael, you have $1000000.'

你可能猜到了，%运算符就是拿来低格字符串的。在字符串内部，%s表示用字符串替换，%d表示用整数替换，有几个%?占位符，前面就跟几个变量或则值，次序要对应好。假如只有一个%?，括弧可以省略。

常见的占位符有：

占位符替换内容

整数

浮点数

字符串

十六补码整数

其中，低格整数和浮点数还可以指定是否补0和整数与小数的位数：

# -*- coding: utf-8 -*-

Run

假如你不太确定应当用哪些，%s永远起作用，它会把任何数据类型转换为字符串：

>>> 'Age: %s. Gender: %s' % (25, True)'Age: 25. Gender: True'

有些时侯，字符串上面的%是一个普通字符如何办？这个时侯就须要通配符，用%%来表示一个%：

>>> 'growth rate: %d %%' % 7'growth rate: 7 %'

()

另一种低格字符串的方式是使用字符串的()方式，它会用传入的参数依次替换字符串内的占位符{0}、{1}……，不过这些方法写上去比%要麻烦得多：

>>> 'Hello, {0}, 成绩提升了 {1:.1f}%'.format('小明', 17.125)'Hello, 小明, 成绩提升了 17.1%'

练习

小明的成绩从今年的72分提高到了去年的85分，请估算小明成绩提高的百分点，并用字符串低格显示出'xx.x%'，只保留小数点后1位：

# -*- coding: utf-8 -*-
s1 = 72
s2 = 85

Run

小结

3的字符串使用，直接支持多语言。

当str和bytes相互转换时，须要指定编码。最常用的编码是UTF-8。其实也支持其他编码方法，例如把编码成：

>>> '中文'.encode('gb2312')b'\xd6\xd0\xce\xc4'

但这些方法纯属自找麻烦，假如没有特殊业务要求，请谨记仅使用UTF-8编码。

低格字符串的时侯，可以用的交互式环境测试，便捷快捷。

上一篇： C语言关键字、标识符和注释

下一篇： MySQL查询的奥妙：解析、优化、缓存，你知道吗？

标签：编码字符字节整数格式化

排行榜

259℃1hustoj比赛作业里面的时间是什么含义，OI排名跟普通排名有何区别？
214℃2Ubuntu18.04搭建LAMP环境完成帝国CMS安装
212℃3LAMP环境如何搭建多站点
210℃4 linux 下基本文件操作
197℃5hustoj脚本把OJ装在哪里了？可以卸载么？
187℃6hustoj如何限制未登录用户访问？
170℃7hustoj比赛后题目看不见了怎么弄？
160℃8Apache如何做301重定向

图文教程

技术标签