新浪网站建设的目的,广东佛山建网站,设计公司logo网站,商丘网站优化公司文章目录 1. GB23122. Big53. GBK一、字汇二、码位分配及顺序三、字形GBK 编码表 4. GB180305. CJK 1. GB2312
GB2312字符集由中国国家标准总局1980年发布#xff0c;其中收录了6763个常用汉字和682个其它符号#xff08;67636827445#xff09;#xff0c;并将该字符集分… 文章目录 1. GB23122. Big53. GBK一、字汇二、码位分配及顺序三、字形GBK 编码表 4. GB180305. CJK 1. GB2312
GB2312字符集由中国国家标准总局1980年发布其中收录了6763个常用汉字和682个其它符号67636827445并将该字符集分为94个区每个区94位每个位对应一个字符或零个字符94x9488368836-77451391说明有1391个位置是空的。
区号内容01-09区特殊符号如标点符号、数字序列、全角字符、日语假名、拼音音标等10-15区空16-55区一级汉字按拼音排序56-87区二级汉字按部首/笔画排序88-94区空
如果将GB2312看做是一种“字符集”则可以用多种编码方式对它进行编码。比如“区位码”就是对GB2312字符集最简单的一种编码方式它直接使用区号和位号组成一个编码值例如GB2312字符集中的第一个汉字“啊”它的区号为16位号为01它的区位码就是1601。这里GB2312 编码列出了GB2312区位码编码。
但通常人们所说的GB2312指的是一种编码并且不是指区位码它是指通常采用EUC方法对GB2312字符集中的“区”和“位”进行处理后的编码。EUC方法的处理方式区号和位号分别加上0xA0结果分别作为GB2312编码的两个字节的值例如“啊”字的区号和位号分别为16和01即十六进制0x10和0x01分别加0xA0得到编码0xB0A1这样做是为了兼容ASCII编码GB2312编码的俩字节都大于ASCII码的最大值。这里GB2312简体中文编码表列出了通常更常用的GB2312编码。
有趣的是GB2312中也收录了英文字母和数字等符号ASCII码中也有这些符号并且仍然是以俩字节编码于是GB2312中的英文字母和数字等就成了我们平常所说的全角符号而ASCII码的符号就叫做半角符号。
关于GB2312还有另一种声音谁设计的GB2312被日笨人说是抄的尼玛汉字都是我大中华的谁抄谁啊…_
2. Big5
维基上说Big5是由台湾财团法人信息产业策进会为五大中文套装软件并因此得名Big-5所设计的中文共通内码在1983年12月完成公告。那个之前还没有繁体字编码GB2312又不含繁体字因此才有了Big-5。
传说Big5产生前有着“中文电脑之父”之称的朱邦复也设计了一套中文编码可容纳50000多字包括繁体和简体但是未被采纳。
3. GBK
话说Unicode 1.1推出时收录了两万多个中日韩通用字符集的汉字同一年我国也定制了相应的GB13000但是一直未被业界采用。而微软利用了GB2312中未使用的编码空间并且收录了GB13000中的全部字符从而定制了GBK编码虽然收录了GB13000的全部字符但是编码方式并不相同并且实现于Windows95中文版中。GBK自身并非国家标准不过1995年由国标局等机构确定为“技术规范指导性文件”。
简单地说GBK是从GB2312扩展而来的支持繁体并且兼容GB2312。
GBK编码范围8140FEFE。
GBK编码是对GB2312编码的扩展因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案其编码范围8140FEFE剔除xx7F码位共23940个码位。共收录汉字和图形符号21886个其中汉字包括部首和构件21003个图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布这一版的GBK规范为1.0版。
一、字汇
GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号并有所补充。具体包括
GB 2312 中的全部汉字、非汉字符号。GB 13000.1 中的其他 CJK 汉字。以上合计 20902 个 GB 化汉字。《简化字总表》中未收入 GB 13000.1 的 52 个汉字。《康熙字典》及《辞海》中未收入 GB 13000.1 的 28 个部首及重要构件。13 个汉字结构符。BIG-5 中未被 GB 2312 收入、但存在于 GB 13000.1 中的 139 个图形符号。GB 12345 增补的 6 个拼音符号。汉字“〇”。GB 12345 增补的 19 个竖排标点符号GB 12345 较 GB 2312 增补竖排标点符号 29 个其中 10 个未被 GB 13000.1 收入故 GBK 亦不收。从 GB 13000.1 的 CJK 兼容区挑选出的 21 个汉字。GB 13000.1 收入的 31 个 IBM OS/2 专用符号。 12.未录入《新华字典》上的一些字如“韡”的简体。
二、码位分配及顺序
GBK 亦采用双字节表示总体编码范围为 8140-FEFE首字节在 81-FE 之间尾字节在 40-FE 之间剔除 xx7F 一条线。总计 23940 个码位共收入 21886 个汉字和图形符号其中汉字包括部首和构件21003 个图形符号 883 个。
全部编码分为三大部分 汉字区。包括 a. GB 2312 汉字区。即 GBK/2: B0A1-F7FE。收录 GB 2312 汉字 6763 个按原顺序排列。 b. GB 13000.1 扩充汉字区。包括 (1) GBK/3: 8140-A0FE。收录 GB 13000.1 中的 CJK 汉字 6080 个。 (2) GBK/4: AA40-FEA0。收录 CJK 汉字和增补的汉字 8160 个。CJK 汉字在前按 UCS 代码大小排列增补的汉字包括部首和构件在后按《康熙字典》的页码/字位排列。 (3) 汉字“〇”安排在图形符号区GBK/5A996。 图形符号区。包括 a. GB 2312 非汉字符号区。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符号外还有 10 个小写罗马数字和 GB 12345 增补的符号。计符号 717 个。 b. GB 13000.1 扩充非汉字区。即 GBK/5: A840-A9A0。BIG-5 非汉字符号、结构符和“〇”排列在此区。计符号 166 个。 用户自定义区分为(1)(2)(3)三个小区。 (1) AAA1-AFFE码位 564 个。 (2) F8A1-FEFE码位 658 个。 (3) A140-A7A0码位 672 个。 第(3)区尽管对用户开放但限制使用因为不排除未来在此区域增补新字符的可能性。
三、字形
GBK 对字形作了如下的规定
原则上与 GB 13000.1 G列即源自中国大陆法定标准的汉字下的字形/笔形保持一致。在 CJK 汉字认同规则的总框架内对所有的 GBK 编码汉字实施“无重码正形”“GB 化”即在不造成重码的前提下尽量采用中国新字形。对于超出 CJK 汉字认同规则的、或认同规则尚未明确规定的汉字在 GBK 码位上暂安放旧字形。这样在许多情况下 GBK 收入了同一汉字的新旧两种字形。非汉字符号的字形凡 GB 2312 已经包括的与 GB 2312 保持一致超出 GB 2312 的部分与 GB 13000.1 保持一致。带声调的拼音字母取半角形式。
若要查询具体字符的编码请前往汉字字符集编码查询。
GBK 编码表
参看https://www.qqxiuzi.cn/zh/hanzi-gbk-bianma.php
4. GB18030
GB2312和GBK都是用两个字节来编码的就算用完所有的位256*25665536也不够为所有的汉字编码。于是就有了目前最新的GB18030它采用类似UTF-8的编码方式进行编码每个字符的编码可以是1、2或4个字节拥有上百万个编码空间足以支持中日韩三国所有汉字并且还可以支持国内少数民族的文字。
5. CJK
CJK中日韩统一表意文字CJK Unified Ideographs。在Unicode中收集各国相同的汉字并且进行合并相同的编码点code point上可以避免相同文字重复编码浪费编码空间。
参考
百度百科信息交换用汉字编码字符集GB2312 编码GB2312简体中文编码表维基百科Extended Unix Code谁设计的GB2312被日本人说是抄的字符集和字符编码Charset Encoding维基百科大五码维基百科朱邦复维基百科汉字内码扩展规范维基百科GB 18030 本系列文章包括
ANSI是什么编码汉字编码GB2312, GBK, GB18030, Big5细说Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4
参考文献
汉字编码GB2312, GBK, GB18030, Big5