前段时间,在所参与的项目中遇到了一个unicode与gb之间转码失败的问题,一些不常用汉字的编码都被转成了“??”,这些汉字没有显示出来,于是自己对相关的问题做了一些研究并最终使问题得以解决。现在就结合前面两篇的unicode与gb方面的基本原理,介绍这种制作gbk-unicode编码对照表的方法。
java的字符串string类功能强大,不但能进行一些基本的字符串操作,还可以根据需要构造指定字符集的字符串,本文所介绍的方法正是利了这一点,这种方法的基本思路是:
1、遍历gbk编码表中的所有汉字,使用该字的gb编码构造一个字符串。gbk编码表中各部分的汉字分块比较整齐,很容易遍历。
2、使用getbytes()方法取得该字符的字节数组,由于java是用unicode来表示字符的,所以此汉字的unicode就在其中。
以下是一段示例代码:
这一段是对gbk/2区的汉字进行遍历并处理的代码,gbk/2区的首字节范围在[0xb0,0xf7],尾字节范围在[0xa1,0xfe],在构造字符串时使用的字符集为gbk:
string str = new string(gbkbytes,"gbk");
在使用getbytes()取得的字节数组中会有四个元素,前两个不知是做什么用的,可能与字符串本身的结构有关,接下来的两个字节才是真正的unicode码。但这两个字节是倒序的,要从最后一个字节开始取,之所以这样是与big_endian和little_endian有关的,这里不多说。
当每一次内层循环结束时,buffer字符串中前两个数字就是一个gb码,后面两个数字就是一个unicode码,把它写到文件中就行了。
这样的文件得到之后,再在另外的程序中载入文件,把unicode值装入数组,以gb码为索引,就可以很方便地由gb码查得unicode码。
新闻热点
疑难解答