信息交换用汉字编码系统的基本集

2024-01-08 01:01:54 阅读 0

ASCII（美国信息交换标准代码）

它是一种基于罗马字母的计算机编码系统，主要用于显示现代英语和其他西欧语言。它是当今最常见的单字节编码系统，相当于国际标准 ISO 646。

国家标准信息交换码的英文缩写，是一种在计算机中使用二进制表示字母、数字和符号的编码标准。 ASCII 码有两种类型。使用7位二进制数的称为基本ASCII码；使用 8 位二进制数的代码称为扩展 ASCII 代码。

注：在计算机的存储单元中，一个 ASCII 码值占用一个字节（8 个二进制位），其最高位（b7）用作奇偶校验位。所谓奇偶校验是指检查代码传输过程中是否出现错误的一种方法。一般分为奇校验和偶校验两种。

奇校验规则：正确码的一个字节中1的个数必须是奇数。如果不是奇数，则最高位b7加1；偶校验规则：正确码的一个字节中1的个数必须是偶数。，如果不是偶数，则最高位b7加1。

2、.

又称-80字符集，全称是“信息交换基本集中文编码字符集”。由原中国国家标准局发布，1981年5月1日实施，是中国国家标准简体汉字字符集。其包含的汉字已经覆盖了99.75%的使用频率，基本满足了计算机对汉字的处理需要。在中国大陆和新加坡广泛使用。

3.GBK。

GBK字符集是一个扩展（K）。 GBK1.0包含21886个符号。分为汉字区和图形符号区。汉字区包含21003个汉字。 GBK字符集主要扩展了对繁体中文字符的支持。

4.BIG5。

BIG5，又称大五霸或大五，于1984年由台湾资讯产业同业公会与五家软件公司：宏碁、神达、艾里逊、零一、FIC共同创立。）创立，故称为大五码。 Big5码的产生是因为当时台湾不同厂商推出了不同的码，如益田码、IBM PS55、湾安码等，彼此不兼容；

另一方面，当时台湾还没有推出官方的汉字编码，而中国大陆的编码也不包含繁体汉字。

Big5码采用双字节存储方式，用两个字节来编码一个字。第一个字节称为“高字节”，第二个字节称为“低字节”。

全称-2000《信息交换用汉字编码字符集扩展基本集》，是中国政府于2000年3月17日发布的汉字编码新国家标准，发布于中文2001 年 8 月 31 日之后上市。软件必须符合此标准。

字符集标准解决了由汉字、日语假名、韩语和中国少数民族文字组成的大字符集的计算机编码问题。

该标准总字符编码空间超过150万编码位，包含27484个汉字，涵盖中文、日文、韩文和中国少数民族文字。满足东亚地区（包括中国大陆、香港、台湾、日本、韩国）信息交换的多语言、大字体、多用途、统一编码格式的要求。

并兼容3.0版本，填写扩展汉字词汇“统一汉字扩展A”内容。并兼容之前的国家字符编码标准（，.1）。

GB 18030标准采用单字节、双字节和四字节三种方法对字符进行编码。按照程序员的说法，GBK、GBK都属于双字节字符集（DBCS）。

6.ANSI编码

不同的国家和地区制定了不同的标准，产生了各自的编码标准，如BIG5、JIS等。这些用2个字节表示一个字符的各种汉字扩展编码方式称为ANSI编码。在简体中文系统下，ANSI编码代表编码，在日文操作系统下，ANSI编码代表JIS编码。

1.字符集编码的名称由来是(-Octet Coded

Set）是通用多八位编码字符集的缩写，支持全球650多种语言的国际字符集。允许在同一服务器上混合来自不同语言组的不同语言。它是由一个名为学会（）的组织开发的字符编码系统，用于支持当今世界上各种语言的书面文本的交换、处理和显示。

2.此代码于1990年开发，1994年正式公布。最新版本为2005年3月31日的4.1.0。是计算机上使用的字符编码。它为每种语言的每个字符设定了统一且唯一的二进制编码，以满足跨语言、跨平台的文本转换和处理的要求。

3．编码方式标准始终使用十六进制数，书写时以“U+”为前缀。例如，字母“A”的编码是

。所以“A”的编码写为“U+0041”。

同时，记住UCS（就是这样）

9.UTF-8编码

UTF-8是使用方法之一。 UTF是指将其转换成某种格式。

UTF-8有利于通过网络在不同计算机之间传输不同语言和编码的文本，使得双字节文本能够在处理单字节文本的现有系统上正确传输。 UTF-8 使用可变长度字节来存储字符。例如，ASCII字母继续使用1个字节来存储，重音字符、希腊字母或西里尔字母使用2个字节来存储，而常用的汉字则使用3个字节。。辅助平面字符使用4个字节。

10.UTF-16和UTF-32编码

UTF-32、UTF-16 和 UTF-8 是标准编码字符集的字符编码方案。 UTF-16 使用一个或两个未分配的 16 位代码单元的序列来对代码点进行编码； UTF-32即将对每个代码点进行编码。代码点表示为具有相同值的 32 位整数

11.加密编码

根据定义，它被定义为：内容传输编码旨在将任意8位字节序列描述成不易被人类直接识别的形式。（-- 是 to of 的一种形式，但不一定是这样。）

—————————————————

上一篇：开发环境的搭建+php+mysql环境搭建

下一篇：动态网站开发（php）课程教学大纲实习（实验）