首页 > 学院 > 开发设计 > 正文

c# 抓取 js动态生成的HTML的工具:NHtmlUnit‎

2019-11-17 03:19:26
字体:
来源:转载
供稿:网友

c# 抓取 js动态生成的HTML的工具:NHtmlUnit‎

(此博客文章纯属个人记录,转载请注明出处!)

官方地址:NHtmlUnit

编译获取dll方法:

1.下载nuget.exe(nuget所在网站:http://www.nuget.org/)

2.打开DOS命令对话框,

进入nuget.exe文件所在目录(我的exe文件放在桌面)

3.运行命令安装NHtmlUnit,安装后会在当前目录创建两个文件夹,一个是安装所需环境IKVM,另一个就是需要的NHtmlUnit文件夹,里面的lib目录下面有生成的dll

运行命令:nuget installNHtmlUnit

3.使用方法可以去HtmlUnit的官方网站阅读文档,或在博客园搜索教程,与java的HtmlUnit的用法是一样的,NHtmlUnit只是

在HtmlUnit上加了个壳使.net可以调用JAVA而已。

实例代码(引用dll:HtmlUnit,NHtmlUnit,为了偷懒,我把所有IKVM的dll都引用了):

class PRogram    {        static void Main(string[] args)        {            WebClient client = new WebClient();            client.Options.JavaScriptEnabled = false;            client.Options.CSSEnabled = true;            client.Options.ThrowExceptionOnScriptError = false;            client.Options.Timeout = 5000;            HtmlPage page = client.GetHtmlPage("http://www.baidu.com/#wd=11&rsv_spt=1&issp=1&rsv_bp=0&ie=utf-8&tn=baiduhome_pg&rsv_sug3=2&rsv_sug2=0&inputT=26");            Thread.Sleep(3000);            string xml = page.AsXml();            HtmlDocument doc = new HtmlDocument();//忽略此类,这个类是其他DLL提供的,与NHtmlUnit无关            doc.LoaDHTML(xml);            string nodeName = doc.GetElementbyId("container").Name;            Console.WriteLine("/r/n/r/n/r/n/r/n" + nodeName + "/r/n/r/n/r/n/r/n" );            Console.Read();        }    }


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表