ASCII(美国信息交换标准代码)
它是一种基于罗马字母的计算机编码系统,主要用于显示现代英语和其他西欧语言。 它是当今最常见的单字节编码系统,相当于国际标准 ISO 646。
国家标准信息交换码的英文缩写,是一种在计算机中使用二进制表示字母、数字和符号的编码标准。 ASCII 码有两种类型。 使用7位二进制数的称为基本ASCII码; 使用 8 位二进制数的代码称为扩展 ASCII 代码。
注:在计算机的存储单元中,一个 ASCII 码值占用一个字节(8 个二进制位),其最高位(b7)用作奇偶校验位。 所谓奇偶校验是指检查代码传输过程中是否出现错误的一种方法。 一般分为奇校验和偶校验两种。
奇校验规则:正确码的一个字节中1的个数必须是奇数。 如果不是奇数,则最高位b7加1; 偶校验规则:正确码的一个字节中1的个数必须是偶数。 ,如果不是偶数,则最高位b7加1。
2、.
又称-80字符集,全称是“信息交换基本集中文编码字符集”。 由原中国国家标准局发布,1981年5月1日实施,是中国国家标准简体汉字字符集。 其包含的汉字已经覆盖了99.75%的使用频率,基本满足了计算机对汉字的处理需要。 在中国大陆和新加坡广泛使用。
3.GBK。
GBK字符集是一个扩展(K)。 GBK1.0包含21886个符号。 分为汉字区和图形符号区。 汉字区包含21003个汉字。 GBK字符集主要扩展了对繁体中文字符的支持。
4.BIG5。
BIG5,又称大五霸或大五,于1984年由台湾资讯产业同业公会与五家软件公司:宏碁、神达、艾里逊、零一、FIC共同创立。 )创立,故称为大五码。 Big5码的产生是因为当时台湾不同厂商推出了不同的码,如益田码、IBM PS55、湾安码等,彼此不兼容;
另一方面,当时台湾还没有推出官方的汉字编码,而中国大陆的编码也不包含繁体汉字。
Big5码采用双字节存储方式,用两个字节来编码一个字。 第一个字节称为“高字节”,第二个字节称为“低字节”。
5.
全称-2000《信息交换用汉字编码字符集扩展基本集》,是中国政府于2000年3月17日发布的汉字编码新国家标准,发布于中文2001 年 8 月 31 日之后上市。软件必须符合此标准。
字符集标准解决了由汉字、日语假名、韩语和中国少数民族文字组成的大字符集的计算机编码问题。
该标准总字符编码空间超过150万编码位,包含27484个汉字,涵盖中文、日文、韩文和中国少数民族文字。 满足东亚地区(包括中国大陆、香港、台湾、日本、韩国)信息交换的多语言、大字体、多用途、统一编码格式的要求。
并兼容3.0版本,填写扩展汉字词汇“统一汉字扩展A”内容。 并兼容之前的国家字符编码标准(,.1)。
GB 18030标准采用单字节、双字节和四字节三种方法对字符进行编码。 按照程序员的说法,GBK、GBK都属于双字节字符集(DBCS)。
6.ANSI编码
不同的国家和地区制定了不同的标准,产生了各自的编码标准,如BIG5、JIS等。 这些用2个字节表示一个字符的各种汉字扩展编码方式称为ANSI编码。 在简体中文系统下,ANSI编码代表编码,在日文操作系统下,ANSI编码代表JIS编码。
7.
1.字符集编码的名称由来是(-Octet Coded
Set)是通用多八位编码字符集的缩写,支持全球650多种语言的国际字符集。 允许在同一服务器上混合来自不同语言组的不同语言。 它是由一个名为学会( )的组织开发的字符编码系统,用于支持当今世界上各种语言的书面文本的交换、处理和显示。
2.此代码于1990年开发,1994年正式公布。最新版本为2005年3月31日的4.1.0。是计算机上使用的字符编码。 它为每种语言的每个字符设定了统一且唯一的二进制编码,以满足跨语言、跨平台的文本转换和处理的要求。
3.编码方式标准始终使用十六进制数,书写时以“U+”为前缀。 例如,字母“A”的编码是
。 所以“A”的编码写为“U+0041”。
同时,记住UCS(就是这样)
9.UTF-8编码
UTF-8是使用方法之一。 UTF是指将其转换成某种格式。
UTF-8有利于通过网络在不同计算机之间传输不同语言和编码的文本,使得双字节文本能够在处理单字节文本的现有系统上正确传输。 UTF-8 使用可变长度字节来存储字符。 例如,ASCII字母继续使用1个字节来存储,重音字符、希腊字母或西里尔字母使用2个字节来存储,而常用的汉字则使用3个字节。 。 辅助平面字符使用4个字节。
10.UTF-16和UTF-32编码
UTF-32、UTF-16 和 UTF-8 是标准编码字符集的字符编码方案。 UTF-16 使用一个或两个未分配的 16 位代码单元的序列来对代码点进行编码; UTF-32即将对每个代码点进行编码。 代码点表示为具有相同值的 32 位整数
11.加密编码
根据定义,它被定义为:内容传输编码旨在将任意8位字节序列描述成不易被人类直接识别的形式。 (-- 是 to of 的一种形式,但不一定是这样。)
—————————————————