首页 > 编程 > PHP > 正文

PHP用mb_string函数库处理与windows相关中文字符

2020-03-22 17:54:11
字体:
来源:转载
供稿:网友
  • 昨天想批处理以前下载的一堆文件,把文件里的关键内容用正则匹配出来,集中处理。在操作文件时遇到一个问题,就是windows操作系统中的编码问题。

    我们都知道windows中(当然是中文版),文件名和文件内容等编码都是gbk,而我们在开发过程中,IDE里的编码则是UTF-8,(这里不讨论为什么等等问题,

    只考虑怎么把编码转变成一样的)所以导致我写的UTF-8编码的正则模式字符串中的中文在gbk编码的文件中并不能正确匹配。


    一开始,我并没有什么办法,试过把PHP脚本文件的编码也改成GBK,也可以用,但是想到这种方法太low了,所以找一找PHP中有没有函数可以满足我的需求。

    这时,我想到了以前在处理windows中的文件名时用的函数iconv(),其函数原型如下:

    stringiconv(string$in_charset,string$out_charset,string$str)

    Performsacharactersetconversiononthestringstrfromin_charsettoout_charset.

    我们常使用:

    $out_charset='utf-8';$fileName=iconv($fileName,$out_charset,'gbk');

    来处理文件名,将文件名改从gbk改为UTF-8而内容不变。

    手册翻译附加:

    如果你在输出字符串$out_charset后面添加//TRANSLIT即$out_charset='utf-8//TRANSLIT',在遇到不能转换为UTF-8的字符时,程序会自动替换为一个相似字符的UTF-8字符; 如果你在输出字符串$out_charset后面添加//IGNORE即$out_charset='utf-8//IGNORE',在遇到不能转换为UTF-8的字符时,程序会自动跳过这个字符。 如果你什么都没加,就在遇到不能替换成UTF-8的字符时,替换会被中断。

    但是,我在用这个函数处理时,结果却是这样:

    意思是iconv()函数能处理的最大字符数只有64,一般的文件名大小,而我的文件内容很显然不止64个字符。

    没有办法,我只好再次各种翻找别的函数。


    直到我发现了mb_string函数库,这个函数库一般都在PHP环境里集成,我们可以在phpinfo()里找到它。

    mb_string函数里有一个mb_convert_encoding()函数,可以将一个字符串的编码改变,其函数原型如下:

    stringmb_convert_encoding(string$str,string$to_encoding[,mixed$from_encoding])

    Convertsthecharacterencodingofstringstrtoto_encodingfromoptionallyfrom_encoding.

    基原型跟iconv()函数差不多,只是它没有对输出函数的后缀修饰,它也没有对字符串长度的明确限制。

    而且我们看到$from_encoding是可选的,它可以自动识别源编码。

    因为找不到一个确切的无法转码的字符,也不知道它遇到无法转码的字符会怎么处理。

    通过mb_convert_encoding()函数,将整个文件处理了一下,于是,问题顺利解决。


    最后介绍一下mb_string函数库,它全名叫MultibyteString,它的很多方法都扩展自PHP自身的string函数库,函数名在原函数的前面加了'mb_',这些函数除了拥有原函数的作用外,还在可选参数的最后加入了一个$encoding的可选参数,这个参数可以规定函数以什么样的编码方式来处理字符串。

    例如strpos()函数,找到一个字符串在另一个字符串中的位置。

    strpos('欢迎来访问','问',0)返回的结果是12,因为脚本是UTF-8编码,而将字符串转为UTF-8编码后,每个中文字符会占用3个字节。

    而在mb_strpos()函数中,mb_strpos('欢迎来访问','问',0,'utf-8')则会返回4,它会将字符串当作已经转UTF-8的状态执行。

    而mb_strpos('欢迎来访问','问',0,'gbk')会返回6

    当然,它还有更多有特色的地方~

    如果您觉得本博文对您有帮助,您可以推荐或关注我,如果您有什么问题,可以在下方留言讨论,谢谢。

    PHP编程

    郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

  • 发表评论 共有条评论
    用户名: 密码:
    验证码: 匿名发表