什么是nchardet
nchardet是mozilla自动字符编码识别程序库chardet的.net实现,它移植自jchardet,chardet的java版实现,可实现对给定字符流的编码探测。
nchardet是如何工作的
nchardet通过逐个比较输入字符来猜测编码;由于是猜测,所以可能会有不能完全识别的情况;如果输入字符不能确定正确的编码,那么nchardet会给出一组可能的编码值。
如何使用nchardet
要使用nchardet来探测编码,需要进行如下步骤。
1、使用制定的语言线索来构造detector类的实例对象。
2、用实现了icharsetdetectionobserver接口的对象作为参数来调用detector类的init方法。
3、传入要探测的字符流进行编码探测。
4、调用detector类的dataend方法。
5、得到结果或可能的结果集。
语言线索是一个整数,可用的语言线索有如下几个:
1. japanese
2. chinese
3. simplified chinese
4. traditional chinese
5. korean
6. dont know (默认)
icharsetdetectionobserver接口只有一个notify方法,当nchardet引擎认为自己已经探测出正确的编码时,它就会调用这个notify方法,用户程序可以从这个nodify方法中得到通知(重写icharsetdetectionobserver接口的notify实现)。
代码实例:
//实现icharsetdetectionobserver接口
public class mycharsetdetectionobserver :
nchardet.icharsetdetectionobserver
{
public string charset = null;
public void notify(string charset)
{
charset = charset;
}
}
int lang = 2 ;//
//用指定的语参数实例化detector
detector det = new detector(lang) ;
//初始化
mycharsetdetectionobserver cdo = new mycharsetdetectionobserver();
det.init(cdo);
//输入字符流
uri url = new uri(“http://cn.yahoo.com”);
httpwebrequest request =
httpwebrequest)webrequest.create(url);
httpwebresponse response =
(httpwebresponse)request.getresponse();
stream stream = response.getresponsestream();
byte[] buf = new byte[1024] ;
int len;
bool done = false ;
bool isascii = true ;
while( (len=stream.read(buf,0,buf.length)) != 0) {
// 探测是否为ascii编码
if (isascii)
isascii = det.isascii(buf,len);
// 如果不是ascii编码,并且编码未确定,则继续探测
if (!isascii && !done)
done = det.doit(buf,len, false);
}
stream.close();
stream.dispose();
//调用datend方法,
//如果引擎认为已经探测出了正确的编码,
//则会在此时调用icharsetdetectionobserver的notify方法
det.dataend();
if (isascii) {
console.writeline("charset = ascii");
found = true ;
}
else if (cdo.charset != null)
{
console.writeline("charset = {0}",cdo.charset);
found = true;
}
if (!found) {
string[] prob = det.getprobablecharsets() ;
for(int i=0; i<prob.length; i++) {
console.writeline("probable charset = " + prob[i]);
}
}
console.readline();
新闻热点
疑难解答
图片精选