首页 > 编程 > .NET > 正文

.NET自动字符编码识别程序库 nchardet

2024-07-10 13:08:38
字体:
来源:转载
供稿:网友

  什么是nchardet

     nchardet是mozilla自动字符编码识别程序库chardet的.net实现,它移植自jchardet,chardet的java版实现,可实现对给定字符流的编码探测。

 nchardet是如何工作的

     nchardet通过逐个比较输入字符来猜测编码;由于是猜测,所以可能会有不能完全识别的情况;如果输入字符不能确定正确的编码,那么nchardet会给出一组可能的编码值。

 如何使用nchardet

    要使用nchardet来探测编码,需要进行如下步骤。

    1、使用制定的语言线索来构造detector类的实例对象。
    2、用实现了icharsetdetectionobserver接口的对象作为参数来调用detector类的init方法。
    3、传入要探测的字符流进行编码探测。
    4、调用detector类的dataend方法。
    5、得到结果或可能的结果集。

    语言线索是一个整数,可用的语言线索有如下几个:

         1.    japanese
         2.    chinese
         3.    simplified chinese
         4.    traditional chinese
         5.    korean
         6.    dont know (默认)


    icharsetdetectionobserver接口只有一个notify方法,当nchardet引擎认为自己已经探测出正确的编码时,它就会调用这个notify方法,用户程序可以从这个nodify方法中得到通知(重写icharsetdetectionobserver接口的notify实现)。

代码实例:


 //实现icharsetdetectionobserver接口
    public class mycharsetdetectionobserver :
        nchardet.icharsetdetectionobserver
    {
        public string charset = null;
       
        public void notify(string charset)
        {
            charset = charset;
        }
    }

 

        int lang = 2 ;//
    //用指定的语参数实例化detector
        detector det = new detector(lang) ;
    //初始化
        mycharsetdetectionobserver cdo = new mycharsetdetectionobserver();
        det.init(cdo);

    //输入字符流
    uri url = new uri(“http://cn.yahoo.com”);
    httpwebrequest request =
        httpwebrequest)webrequest.create(url);
    httpwebresponse response =
        (httpwebresponse)request.getresponse();
    stream stream = response.getresponsestream();
   
    byte[] buf = new byte[1024] ;
    int len;
    bool done = false ;
    bool isascii = true ;

    while( (len=stream.read(buf,0,buf.length)) != 0) {
        // 探测是否为ascii编码
        if (isascii)
            isascii = det.isascii(buf,len);

        // 如果不是ascii编码,并且编码未确定,则继续探测
        if (!isascii && !done)
                done = det.doit(buf,len, false);

    }
    stream.close();
    stream.dispose();
    //调用datend方法,
    //如果引擎认为已经探测出了正确的编码,
//则会在此时调用icharsetdetectionobserver的notify方法
    det.dataend();

    if (isascii) {
        console.writeline("charset = ascii");
          found = true ;
    }
    else if (cdo.charset != null)
    {
        console.writeline("charset = {0}",cdo.charset);
        found = true;
    }
   
    if (!found) {
        string[] prob = det.getprobablecharsets() ;
        for(int i=0; i<prob.length; i++) {
            console.writeline("probable charset = " + prob[i]);
        }
    }
    console.readline();

国内最大的酷站演示中心!
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表