问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

全国计算机应用基础知识:汉字、字符编码

发布网友 发布时间:2022-11-22 04:11

我来回答

1个回答

热心网友 时间:2023-01-27 17:12

全国计算机应用基础知识:汉字、字符编码

  (1)计算机中的信息单位

  计算机中对信息表示的单位有位、字、字长及字节等,它们是用来表示信息量的大小的基本概念。

  ① 位:计算机中数据存储的最小单位是一个二进制位,简称位,英文为bit,音译为比特,可用小写字母b表示。

  ② 字节:八位二进制位称为一个字节,英文为Byte,可用大写字母B表示,是计算机存储的基本单位。一个字节的八位二进制数,其位编号自左至右为b7、b6、b5、b4、b3、b2、b1、b0。在计算机中,往往用字节数来表示存储容量,容量可以以KB、MB、GB、TB为单位,它们相互之间的转换关系如下:

  1KB=210B=1024B

  1MB=210KB=1024KB

  1GB=210MB=1024MB

  1TB=210GB=1024GB

  ③ 字:计算机在存储、传送或操作时,作为一个整体单位进行操作的一组二进制,称为一个计算机字,简称字。

  ④ 字长:每个字所包含的位数称为字长。由于字长是计算机一次可处理的二进制数的位数,因此它与计算机处理数据的速率有关,是衡量计算机性能的一个重要因素。

  (2)字符的编码。

  ① ASCII码。

  计算机只能识别二进制数,因此计算机中的数字、字母、符号也必须用二进制进行编码。编码方法有多种,微型机中普遍采用的是ASCII码(美国标准信息交换码),ASCII码现已被国际标准化组织(ISO)接收为国际标准,称为ISO-646。ASCII码有7位版本和8位版本两种,国际上通用的ASCII码是7位版本。7位版本的ASCII码包含10个阿拉伯数字、52个英文大小写字母、32个标点符号和运算符及34个控制码,共128个字符,所以可用7位二进制数表示。7位ASCII码字符如下图所示:

  要确定一个数字、字母、符号或控制字符的ASCII码,可在表中先找出它的位置,然后确定它所对应的十进制值或二进制值。例如小写字母“a”的ASCII码其十进制值是97,二进制值是1100001B(B表示二进制数),若转换成十六进制,其值是61H(H表示十六进制数)。从表中可以看出,数字0~9的ASCII码是30H~39H(后缀H表示是十六进制数),大写字母A~Z的ASCII码是41H~5AH,小写字母a~z的ASCII码是61H~7AH。字符大小的比较就是看它的ASCII码值的大小。

  表中,NUL、BEL、LF、FF、CR、DEL等是控制字符,NUL表示空,BEL是告警符,BS是退格符,LF是换行符,FF是换页符,CR是回车符,SP是空格符,DEL是删除符。

  ② BCD码。

  用计算机处理数字时,要进行二进制与十进制的相互转换,这就要用二进制对十进制数进行编码,BCD(Binary Coded Decimal)码是二进制编码的十进制数。最常用的BCD码就是8421BCD码,

  它是用4位二进制数为一组表示一个十进制数字,4位二进制数从左到右其位权依次为8、4、2、1,它可以组合成16种状态,对0~9这10个数字的编码只取0000~1001这前10种状态,其余6种状态不用。为了能对一个多位十进制数进行编码,需要有和十进制数的位数一样多的4位二进制组,按顺序分别进行编码。表1-4表示8421BCD码与十进制数的对应关系。

  表1-4 BCD码与十进制数的对应关系

  ③ Unicode编码

  ASCII码提供了128个字符,扩展的ASC码提供了256个字符,但用来表示世界各国的文字编码还显得不够,还需要表示更多的字符和意义,因此又出现了Unicode编码。

  Unicode是一种16位的编码,能够表示65000多个字符或符号。目前世界上的各种语言一般所使用的字母或符号在34000个左右,所以Unicode编码可以用于任何一种语言。Unicode编码与现在流行的ASCII码完全兼容,二者的前256个符号是一样的。

  (3)汉字的编码

  汉字是一种象形文字,字数极多(现代汉字中仅常用字就有六七千个,总字数高达5万个以上),且字形复杂,每一个汉字都有“音、形、义”三要素,同音字、异体字也很多,这些都给汉字的计算机处理带来了很大的困难。要在计算机中处理汉字,必须解决以下几个问题:首先,是汉字的输入,即如何把结构复杂的方块汉字输入到计算机中去,这是汉字处理的关键;其次,汉字在计算机内如何表示和存储,如何与西文兼容;最后,如何将汉字的处理结果从计算机内输出。为此,必须将汉字代码化,

  即对汉字进行编码。对应于上述汉字处理过程中的输入、内部处理及输出这3个主要环节,每一个汉字的编码都包括输入码、交换码、内部码和字形码。在计算机的汉字信息处理系统中,处理汉字时要进行如下的代码转换:输入码→交换码→内部码→字形码。以上简述了对汉字进行计算机处理的基本思想和过程,下面具体介绍汉字的4种编码。

  ① 输入码。

  为了利用计算机上现有的标准西文键盘来输入汉字,必须为汉字设计输入编码。输入码也称为外码。目前,已申请专利的汉字输入编码方案有六七百种之多,而且还不断有新的输入方法问世,以至于有“万码奔腾”之喻。按照不同的设计思想,可把这些数量众多的输入码归纳为四大类:数字编码、拼音码、字形码和音形码。其中,目前应用最广泛的是拼音码和字形码。

  a. 数字编码:数字编码是用等长的

  数字串为汉字逐一编号,以这个编号作为汉字的输入码,如区位码、电XX等都属于数字编码。此种编码的编码规则简单,易于与汉字的内部码转换,但难于记忆,仅适用于某些特定部门。

  b. 拼音码:拼音码是以汉字的读音为基础的输入码。拼音码使用方法简单,一学就会,易于推广,缺点是重码率较高(因汉字同音字多),在输入时常要进行屏幕选字,对输入速度有影响。拼音码是按照汉语拼音编码输入,因此在输入汉字时,要求读音标准,不能使用方言。拼音码特别适合于对输入速度要求不是太高的非专业录入人员。

  c. 字形码:字形码是以汉字的字形结构为基础的输入编码。在微型计算机上广为使用的五笔字型码(王码)是字形码的典型代表。五笔字型码的'主要特点为输入速度快,目前最高纪录为每分钟输入293个汉字(该记录为XXXX一女兵所保持),如此高的输入速度已达

  到人眼扫描的极限。但这种输入方法因要记忆字根、练习拆字,前期学习花费的时间较多。此外,有极少数的汉字拆分困难,给出的编码与汉字的书写习惯不一致。

  d. 音形码:音形码是兼顾汉字的读音和字形的输入编码。目前使用较多的音形码是自然码。

  ② 交换码。

  交换码用于汉字外码和内部码的交换。我国于1981年颁布的《信息交换用汉字编码字符集·基本集》(代号为GB2312—1980)是交换码的国家标准,所以交换码也称为国标码。国标码是双字节代码,即有两个字节为一个汉字编码,每个字节的最高位为“1”。国标GB2312—1980收入常用汉字6763个(其中一级汉字3755个,按拼音顺序排列;二级汉字3008个,按部首顺序),其他字母及图形符号(如序号、数字、罗马数字、英文字母、日文假名、俄文字母

  和汉语注音等)682个,总计7445个字符。将这7445个字符按94行×94列排列在一起,组成GB2312—1980字符集编码表,表中的每一个汉字都对应于唯一的行号(称为区号)和列号(称为位号),根据区位号确定汉字的国标码值,分别用两个字节存放。由于篇幅所限,本书未列出GB2312—1980字符编码表,读者可参看有关书籍。

  ③ 内部码。

  内部码是汉字在计算机内的基本表示形式,是计算机对汉字进行识别、存储、处理和传输所用的编码。内部码也是双字节编码,将国标码两个字节的最高位都置为“1”,即转换成汉字的内部码。计算机信息处理系统就是根据字符编码的最高位是“1”还是“0”来区分汉字字符和ASCII码字符的。

  ④ 字形码。

  字形码是表示汉字字形信息(汉字的结构、形状、笔画等)的编码,用来

  实现计算机对汉字的输出(显示、打印)。由于汉字是方块字,因此字形码最常用的表示方式是点阵形式,有16×16点阵、24×24点阵和48×48点阵等。例如,16×16点阵的含义为:有256个点(16× 16=256)来表示一个汉字的字形信息,每个点有“亮”或“灭”两种状态,用一个二进制数的“1”或“0”来对应表示。因此,存储一个16×16点阵的汉字需要256个二进制位,共32个字节(256位/8位)。以上的点阵可根据汉字输出的不同需要进行选择,点阵的点数越多,输出的汉字就越精确、美观。汉字的字形点阵要占用大量的存储空间,通常将其以字库的形式存放在机器的外存中,需要时才检索字库,输出相应汉字的字形。

;
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
清明节扫墓要注意哪些事项? 宿根草本类 是哪些 草本花卉和宿根花卉的区别是什么? 草本花卉和宿根花卉有什么区别? 《没人告诉我.没人理解我》是哪首歌的歌词 ? 王叔要用两辆车运水果,每次每辆车装满,一辆车是2吨,一辆车是3吨... 13吨货物怎样运输合适呢 ...一辆3t运费200元。13t水果怎样合理安排,运费最少? ...2吨,每辆运费140元,大卡车限重3吨.每辆车运费200 有13吨钢材!载重量2吨的卡车、每次的运费是140员、载重量3吨的卡车每次... 河流为城市提供?沿岸地形平坦,便利,农业发达 由八个一和丨个十组成的数是多少,它比多少大3 1个十和8个一合起来是___. 请问戴尔笔记本电脑维修服务中心 戴尔Inspiron 13z(Ins13zR-1508)升级方案 dell笔记本 如何 我的13zr,今天发现风扇不会转动了 创造与魔法为什么,一登录键位就恢复 新东方魔法课堂登陆忘记密码怎么办? 土壤微生物的类型及作用特点有哪些? 何晓梅艺术签名 痞子英雄陈在天到底喜欢何晓梅,陈琳,还是蓝西英,陈琳和吴英雄是同父同... 用何晓梅帮我做一首诗 胖高老师的真实姓名是什么 深圳市零成本公司的培训总监何晓梅是什么来头? 何晓梅拼音? 索尼相机wx60用内存卡,还是记忆卡,为什么我买了一个内存卡,相机打开用... 索尼WX60 这个相机支持USB充电吗 江西聚泰法律咨询有限公司是真的还是假的 杭州聚正投资咨询有限公司怎么样? 北方地区主要属于什么气候类型? 新奥资本管理有限公司怎么样? 新奥财务有限责任公司怎么样? 咖啡走奶 鸳鸯走奶是什么 柠檬茶走奶什么意思 关于中草药 中草药图谱(望江南图片)的问题 流传千古的名诗佳句繁体 怎样将旧手机上的转移到新手机上? 如何把同个转移到另外一部手机上 华帝ja1水箱尺寸 用码能定位他人的位置吗,怎么样用查别人的定位 btv-w09c如何升级鸿蒙 笔记本电脑无法访问internet怎么办 手提电脑无法连接internet怎么办 我是做软件开发的,公司有30人左右,请问针对我这种情况有没有合理的... 正月剪头死舅舅的由来 普通话与北方方言区别有哪些? 皂角米能直接泡水喝么 运动减肥最好方法 运动减肥最好方法推荐