汉字编码标准与识别(一)代码页(Code Page)初识

2023-05-16

BBS水木清华站∶精华区 发信人: yanglc (魂归燕园~~别理我,烦着呢), 信区: Linux 标 题: 汉字编码标准与识别(一) 发信站: BBS 水木清华站 (Sat Apr 29 17:19:05 2000) http://www.linuxforum.net/cgi-bin/perl/showpost.pl?Board=chinese& Number=766&page=2&view=expanded&sb=5 Subject 汉字编码标准与识别(一)代码页(Code Page)初识 Posted by shuyong Posted on 4/16/2000 9:05 PM 汉字编码标准与识别(一) 代码页(Code Page)初识 本节是根据以下文章编写出来的,建议认真研读这些专家的高论。 参考1 <> 张 轴 材 < <计算机世界> >周报 97-1-17 参考2 < <张轴材 谈汉字交换码标准建立历程> > < <计算机世界> >周 报记者 黄伟敏 肖春江 99-8-30 参考3 < <中文平台把住“根”留住> > 吴健 < <中国计算机报> > 出版日期:1998-12-21 总期号:348 本年期号:51 参考4 < <为种种unix中文平台号脉> > 孙玉芳 < <中国计算机用户> > 出版日期:1998-07-06 总期号:323 本年期号:26 参考5 CJK.INF:ftp://ftp.ora.com/pub/examples/nutshell/ujip/ doc/cjk.inf 因为本人只是业余水平,不是专家,对于参考资料中许多术语还不 理解,更没有见过任何一种标准的正式文本,错误和模糊之处再所 难免。同时,因为国家有关部门对于宣传,推广和贯彻国家标准方 面力度不够,致使象我这样的初学者或初涉该领域的小企业因信息 资源不足而处于不利的竞争地位。 ASCII制订的时候,并没有考虑对多语种,特别是对象中国汉字这样 的象形文字的支持。为此后来又提出了不少解决方案,其中代码页 体系(ISO2022)是现在普遍实行的方案,而ISO10646/GB13000/Unicode 是今后发展的方向。 中国的汉字编码标准GB2312是7bits标准,具体说是双7位字节标准。 而ASCII是单7位字节标准,计算机怎么区分呢?一种是在第八位置"1", 提示计算机转入双字节编码,这是最常见的一种实现,也叫EUC (Extended Unix Code)编码.另一种是用特殊标记提示计算机转入双 字节编码,如HZ编码就是用开始,用结束的块标识双字节编码区.它们 都是GB2312的一种实现.对象中国汉字这样的象形文字体系,代码页 是根据各个国家,地区或行业标准,按照EUC方式编码。代码页向下 兼容ASCII,是一种不等长编码。会带来代码的复杂性,同时还会引 起因代码页切换而带来的乱码问题。 Unicode是一种多字节等长编码。ISO10646/GB13000/Unicode现已在 UCS2上实现一致,也就是已实现双字节编码标准。下面所讨论的 ISO10646/GB13000/Unicode,就只是指UCS2这种情况。Unicode对 ASCII采取前面加"0"字节的策略实现等长兼容。如"A"的ASCII码为0x41, Unicode码就为0x00,0x41。 这里主要从国家标准(GB)系列入手了解Unicode。如果不是看了参考5 (英文),我还不知道国家关于汉字编码的标准如此之多。中国人居然 要从英文资料里了解汉字编码标准,实在是很无奈的事情。 常用中文编码标准 资料来源:CJK.INF GB2312-1980(GB0)(简体) GB7589-1987(GB2)(简体) GB7590-1987(GB4)(简体) GB13000-1993 GB6345.1-1986(GB0修正) GB8565.2-1988(GB8,GB0扩充) GB/T12345-90(GB1)(繁体) GB/T13131-9X(GB3)(繁体) GB/T13132-9X(GB5)(繁体) 其中横向表示字符集系列。纵向表示各个系列的发展标准。其中 GB2312是基本集,也就是目前最常用的标准。GB7589/GB7590是扩展 集,使用时可能不能和GB2312共存,需要切换使用。GB7589/GB7590 是按部件(部首)和笔顺(笔画)排列,但具体有什么字,怎么排列, 用在什么领域,不清楚。GB2312系列经过两次修正和扩充,已和原 始的GB2312-1980标准有些不同(参考5)。因为没有标准文本,不知 道正在使用的字体是属于哪个标准。根据最新的Unicode3.0,国家 标准最新的是GB16500-95 ,更不知是哪个系列的了。ISO/IEC 10646 等同于GB13000-1993/JIS0221-1995/KSC5000-1995这些国家标准。 制订的目标是包容各语种的文字,其中以汉字最多(Unicode2.0有 20902个汉字)。关于标准的特点可以看参考1,制订过程中的风风 雨雨,可以看参考2。总之,这是一个我们国家参与并占主导地位 的国际标准。 GBK是GB2312向GB13000过渡的一个中间产物。它是GB2312的一次大 的扩展,编码向下兼容GB2312的EUC编码,字汇(字符集)和GB13000 相同,是GB2312的3倍。所以说GBK也包含BIG5,Shift-JIS,KSC的 字汇。注意只是包含字汇,而编码与原始的标准是不同的。在具体 应用中,用GBK字体就可以同时显示GB2312,BIG5,Shift-JIS,KSC 的字符串。但除了GB2312字符串,其它都要转换(convert)。 因为语焉不详,不清楚制订GBK时是谁占主导地位。因为有些英文资 料说是Microsoft制订了GBK,而国家方面也没有进行说明。目前从 这些参考资料只知道,94年ISO/IEC 10646发布后,Microsoft开发 Windows95中文版,要制订中文扩展编码。96年《汉字扩展内码规范》 GBK发布(参考1~3)。按标准发布比制定晚一年推算,这是95年的事。 Windows95及后续版本中文版支持GBK。 GB2312的EUC编码范围是第一字节0xA1~0xFE(实际只用到0xF7),第 二字节0xA1~0xFE。GBK对此进行扩展。第一字节为0x81~0xFE,第二 字节分两部分,一是0x40~0x7E,二是0x80~0xFE。其中和GB2312相 同的区域,字完全相同。扩展部分大概是按部件(部首)和笔顺(笔画) 从GB13000中取出再排列入GBK中。因此GBK并不是GB13000,虽然两者 字汇相同,但编码体系不同。一个是ISO2022系列不等长编码,一个 是等长编码,并且编码区域也不同。注意到GBK实际上不是国家标准。 在此之前有一个GB2312基本集,在它之上是一个技术更先进的GB13000。 GBK只是一种过渡和扩展规范。所以在Unicode里有GB2312->Unicode, GB12345->Unicode的转换表格,而没有GBK->Unicode转换表格。只有 Microsoft制作的Code Page 936(CP936.TXT)可以算作GBK->Unicode 转换表格。但要注意这是一个商业公司制作的文件,而不是国家或 国际标准组织制作的,有可能与标准有不一致的地方。最近在方正字 体网站发现一些有用的标准文件,有兴趣可以下载看看.但要注意 Gbk-big5.tab和Gb-big5.tab这两个文件有点瑕疵. http://www.founderpku.com/fontweb/download/Gbk-big5.tab http://www.founderpku.com/fontweb/download/Gb-big5.tab http://www.founderpku.com/fontweb/gb2312.htm http://www.founderpku.com/fontweb/gbk.htm 在使用这些转换表制作其它标准的相互转换表,会和传统的转换表 有所不同。如用GBK<=>Unicode<=>BIG5制作GBK<=>BIG5转换表,就 会和传统的GB<=>BIG5转换表有所不同。主要是汉字有简体和繁体。 前者是GBK(中的繁体字)<=>BIG5(繁体字),后者是GB(简体)<=>BIG5(繁体)。 还有就是对一些制表符选用不同。对汉字繁简转换有兴趣的读者,可以看 http://www.basistech.com/articles/c2c.html http://www.cjk.org ※ 来源:·BBS 水木清华站 smth.org·[FROM: 162.105.11.130] BBS水木清华站∶精华区
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

汉字编码标准与识别(一)代码页(Code Page)初识 的相关文章

随机推荐

  • 04ROS中的头文件与源文件

    ROS中的头文件与源文件 本节主要介绍ROS的C 43 43 实现中 xff0c 如何使用头文件与源文件的方式封装代码 xff0c 具体内容如下 设置头文件 xff0c 可执行文件作为源文件 xff1b 分别设置头文件 xff0c 源文件与
  • TX2系统安装

    手头新拿到块TX2 xff0c 从零开始搞 xff0c 特此记录以备后续查看 xff0d 2017 07 16 乐 参考官方网址 JetPack下载网址 准备刷机环境 下载JetPack L4T 3 1 linux x64 run pc环境
  • 单片机是嵌入式的子类

    1系统组成结构上的区别 xff08 1 xff09 单片机基本结构 单片机由运算器 控制器 存储器 输入输出设备构成 xff08 2 xff09 嵌入式系统成部分 嵌入式系统一般由嵌入式微处理器 外围硬件设备 嵌入式操作系统 特定的应用程序
  • STM32串口协议概念及结构体初始化详解+串口点灯+串口收发程序

    文章目录 一 串口通信协议简介1 RS232标准2 USB转串口3 原生的串口到串口 二 初始化结构体解1 USART初始化结构体2 同步时钟初始化结构体3 编程时需要用到的固件库函数 三 串口点灯代码实现1 USART C文件2 USAR
  • 无人机光流定位系列——(一)原理剖析

    这次参加深圳的高交会 xff0c 在qualcomm展区看到了多款mini无人机 xff0c 大家稍微细心一点就可以发现这些无人机都使用了一种叫光流定位的技术 xff0c 很多人可能都还不明白光流定位是个什么东西 xff0c 是如何进行定位
  • 现代控制理论2——状态空间分析法

    注 xff1a 本文是在MOOC平台上学习西北工业大学 现代控制理论基础 xff08 郭建国 赵斌 郭宗易 xff09 的课程进行随笔记录与整理 一 状态空间描述的相关概念 1 系统模型包括 xff1a 内部结构 xff0c 以及内部结构反
  • 输出调节——内模原理(1)

    浏览了百度和部分文献 xff08 主要为 xff1a 调节问题系统综述 xff0c 线性系统的内模原理 xff09 xff0c 在此尝试进行一些归纳 一 问题描述 输出调节问题 xff1a output regulation problem
  • RGB-D相机建图——2、openvins安装、测试与连接自己设备

    基础内容贴推荐 xff1a https zhuanlan zhihu com p 93814423 https blog csdn net weixin 39752599 article details 105906652 https zh
  • RGB-D相机建图——3、使用kalibr进行相机标定

    Kalibr 视觉惯性校准工具箱 官方网站 xff1a https github com ethz asl kalibr Kalibr是一个工具箱 xff0c 可以解决以下校准问题 xff1a 多摄像机校准 xff1a 具有非全局共享重叠视
  • 02.构建项目流程梳理及总结

    02 构建项目流程梳理及总结
  • Nuttx学习入门

    Nuttx学习 NuttX 是一个实时操作系统 RTOS xff0c 强调标准合规性和占用空间小 可从 8 位扩展到 64 位微控制器环境 xff0c NuttX 中的主要管理标准是 POSIX 和 ANSI 标准 NuttX 的主要环境依
  • 软件测试之如何介绍自己的项目

    测试人员在找工作的过程中 xff0c 通常有一个问题是很难绕开的 就是要如何向别人介绍自己之前做过的项目 要解决这个问题 xff0c 大致可以分为如下几个步骤 xff1a 1 对项目进行基本介绍 2 说明自己负责测试的模块 3 针对部分模块
  • FreeRTOS多任务管理

    文章目录 1 任务1 1 任务简介1 2 任务调度1 3 任务的状态 就绪态 运行态 阻塞态 挂起态 1 4 空闲任务 2 动态创建两个任务2 1 定义动态内存空间的堆2 2 定义任务函数2 3 定义 任务控制块 指针2 4 动态创建任务
  • 计算机类期刊投稿心得 [ 添加中...现35种 ]

    1 杂志名称 计算机应用研究 杂志文章包含专业 建模 xff0c 仿真 xff0c 网络 xff0c 人工智能 xff0c 比较杂 投稿联系方式 http www arocmag com 注册在线投稿审稿 投稿费用 250元 页 杂志级别
  • Minix下的汇编

    Minix下的汇编 大多数的编译器 xff0c 如Turbo C C 43 43 xff0c Borland C C 43 43 xff0c M C C 43 43 xff0c GCC xff0c VC 43 xff0c 编译过程都是 xf
  • 解决Xshell 7 报错 “要继续使用此程序,您必须应用最新的更新或使用新版本”

    1 先创建一个文本文档 xff0c 同时把该文档名称和后缀改为xshell7 bat xff1b 2 打开编辑这个xshell7 bat文件 xff0c 并且把以下文字复制进去 xff0c 注意set XSHELL 61 这一项需要改成你自
  • 多任务操作系统的任务切换

    在学习OS时 xff0c 对于多任务操作系统的任务切换 xff0c 一直不能理解 xff1a 控制权是怎么么回到调度程序上的 xff1f 记得在描述任务切换时 xff0c 一般都是这么描述的 xff1a 在每一个时钟滴答 xff0c 都将检
  • Minix下的汇编2

    似乎minix平台并没有带一个真正的汇编编译器 xff0c 看看makefile xff0c 几乎都是清一色的用cc来编译汇编代码的 而且 xff0c 即使是一个最简单功能的汇编程序 xff0c 也少不了一个 main 标签 在minix的
  • 原来在/var/spool/mail中

    fetchmail会把从mail server收到的邮件投递到 var spool mail 中去 而mutt也会自动地到 var spool mail里取信 xff0c 解码 xff0c 并显示 但 xff0c fetchmail的速度不
  • 汉字编码标准与识别(一)代码页(Code Page)初识

    BBS水木清华站 精华区 发信人 yanglc 魂归燕园 别理我 xff0c 烦着呢 信区 Linux 标 题 汉字编码标准与识别 一 发信站 BBS 水木清华站 Sat Apr 29 17 19 05 2000 http www linu