问题: 网爬工具中自动搜集页面信息时,有的页面出现了出现乱码现象 原因: 读取页面信息是使用了错误的编码类型。C#.NET从现在的类中获取得来的编码信息有时是错误的,本人认为对不是asp.net的应用程序,它读过来的编码信息都是错误的。 解决: 思路:必须先在运行时获取得该页面的编码,再去读取页面的内容,这样得来的页面内容才不会出现乱码现象。 方法: 1:使用ASCII编码去读取页面内容。 2:使用正则表达式从读取的页面内容中筛选出页面的编码信息。上个步骤获取的页面信息可能会有乱码。但Html标志是正确的,所有可以从HTML标志中得到编码的信息。 3.用正确的编码类型去读取页面信息。 假如哪位有更好的方法,请多赐教啊! 下面附上代码: 代码演示 using System; using System.Collections.Generic; using System.Text; using System.Net; using System.Web; using System.IO; using System.Text.RegularEXPRessions; namespace charset { class Program {