|
字符/汉字在计算机中的表示
美国的标准信息交换代码<BR>将每个字符用7位的二进制数来表示,共有128种状态 大小字母、0…9、其它符号、控制符"0 " ―― 48" A " ―― 65" a " ―― 97 (二)汉字信息编码 1.汉字输入码<BR>汉字输入方法大体可分为:区位码(数字码)、音码、形码、音形码。 区位码:优点是无重码或重码率低,缺点是难于记忆;<BR>· 音码:优点是大多数人都易于掌握,但同音字多,重码率高,影响输入的速度;<BR>· 形码:根据汉字的字型进行编码,编码的规则较多,难于记忆,必须经过训练才能较好地掌握;重码率低<BR>· 音形码:将音码和形码结合起来,输入汉字,减少重码率,提高汉字输入速度; 2.汉字交换码<BR>汉字交换码是指不同的具有汉字处理功能的计算机系统之间在交换汉字信息时所使用的代码标准。自国家标准GB2312-80公布以来,我国一直延用该标准所规定的国标码作为统一的汉字信息交换码。 GB2312-80标准包括了6763个汉字,按其使用频度分为一级汉字3755个和二级汉字3008个。一级汉字按拼音排序,二级汉字按部首排序。此外,该标准还包括标点符号、数种西文字母、图形、数码等符号682个。 区位码的区码和位码均采用从01到94的十进制,国标码采用十六进制的21H到73H(数字后加H表示其为十六进制数)。区位码和国标码的换算关系是:区码和位码分别加上十进制数32。如"国"字在表中的25行90列,其区位码为2590,国标码是397AH。<BR> 由于GB2312-80是80年代制定的标准,在实际应用时常常感到不够,所以,建议处理文字信息的产品采用新颁布的GB18030信息交换用汉字编码字符集,这个标准繁、简字均处同一平台,可解决两岸三地间GB码与BIG5码间的字码转换不便的问题。 3.字形存储码<BR>字形存储码是指供计算机输出汉字(显示或打印)用的二进制信息,也称字模。通常,采用的是数字化点阵字模。 一般的点阵规模有16×16,24×24,64×64等,每一个点在存储器中用一个二进制位(bit)存储。例如,在16×16的点阵中,需8×32 bit 的存储空间,每8 bit为1字节,所以,需32字节的存储空间。在相同点阵中,不管其笔划繁简,每个汉字所占的字节数相等。 为了节省存储空间,普遍采用了字形数据压缩技术。所谓的矢量汉字是指用矢量方法将汉字点阵字模进行压缩后得到的汉字字形的数字化信息。 (三)其它信息的数字化 1. 图像信息的数字化<BR>一幅图像可以看作是由一个个像素点构成,图像的信息化,就是对每个像素用若干个二进制数码进行编码。图像信息化后,往往还要进行压缩。<BR>图像文件的后缀名有:bmp、gif、jpg等; 2. 声音信息的数字化<BR>自然界的声音是一种连续变化的模拟信息,可以采用A/D转换器对声音信息进行数字化。<BR>声音文件的后缀名有:wav、mp3等; 3.视频信息的数字化<BR>视频信息可以看成连续变换的多幅图像构成,播放视频信息,每秒需传输和处理25幅以上的图像。视频信息数字化后的存储量相当大,所以需要进行压缩处理。<BR>视频文件后缀名有:avi、mpg等。
|