utf8的编码算法转载

2024-09-06 12:44:05

字体：大中小

来源：转载

供稿：网友

unicode字符集是我们世界上最完善最全面的字符集，几乎包含了世界上所有的字符。其实可以这么理解，unicode字符集是一张巨大的表格，把世界上各种语言的字符和标点符号都编排到里面，然后按照一定的顺序给每个字符排号（很遗憾的是对于中文来说，这个顺序不是按照汉语拼音的顺序）。有了这张巨大的表格，世界上大部分字符就都有一个unicode内码（整数）来对应。计算机就通过记录字符的unicode码来表示这个字符，然后交给操作系统，操作系统通过unicode码到字符字体点阵的映射把这个内码转换成字体点阵显示到我们的屏幕上。

utf8是我们常用的编码方式，在web开发中使用utf8编码能完全解决字符集问题。其实utf8是unicode字符集的一种物理实现，它描述了如何高效的存储unicode的内码（就是上面说的字符在字符集的顺序码），RFC2044文档(http: //www.ietf.org/rfc/rfc2044.txt?number=2044)描述了如何从一个内码转换成utf8格式的算法。英文不好没关系，看这个转换表就会马上明白了：

   UCS-4 range (hex.)           UTF-8 octet sequence (binary)
   0000 0000-0000 007F   0xxxxxxx
   0000 0080-0000 07FF   110xxxxx 10xxxxxx
   0000 0800-0000 FFFF   1110xxxx 10xxxxxx 10xxxxxx
   0001 0000-001F FFFF   11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
   0020 0000-03FF FFFF   111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
   0400 0000-7FFF FFFF   1111110x 10xxxxxx ... 10xxxxxx

上面的表格左边是16进制表示的unicode内码，最后一行的16进制数“7FFF FFFF”是utf8所能表示的内码的最大值，换成10进制是这样的一个数：2147483647（够大吧:)）[对不起，此文最初这儿写错了，已改正]。上面表格中右边一列就是utf8的二进制格式,转换规则可谓一目了然。我直接给出算法吧(js代码)：

    function toUtf8(code)
    {
     var iByte=0;
     var i=0;
     result="";
     while(code>0x7f)
     {
      iByte=code%0x40;
      code=(code-iByte)/0x40;
      result="%"+(iByte|0x80).toString(16).toUpperCase()+result;
      i++;
     }
     prefix=[0x0,0xc0,0xe0,0xf0,0xf8,0xfc];
     if(i>prefix.length)