首页 > 开发 > 综合 > 正文

爬虫/蜘蛛程序的制作(C#语言)

2024-07-21 02:26:19
字体:
来源:转载
供稿:网友

问题是对某一网站或所有网站进行抓取,即下载所有网页。怎么实现呢?

先将问题最小化(转化的思想,转化为小规模,可以解决的问题):如果只有一个网页,怎么下载?问题变地很简单,只要用webclient/webrequest(甚至openfiledialog都可以)打开url地址,将数据流存入本地存储器的文件(以相应的扩展名作为扩展名)即可。示例代码如下:

string boardstream;//下载内容存入此变量

uri url = new uri( “http://www.163.com” );//将下载地址转换为uri类型

httpwebrequest requestpage = ( httpwebrequest )webrequest.create( url );

webresponse response = requestmainpage.getresponse();

stream stream = response.getresponsestream();//获取页面流

if( response.contenttype.tolower().startswith( "text/" ) )//如果获得成功(即为文本格式)

{

    streamreader reader = new streamreader( stream , system.text.encoding.utf8 );//读取获得内容流

boardstream = reader.readtoend();//将内容流转换为文本并存入变量boardstream,即为所需要的数据流

}

streamwriter saveapage = new streamwriter( “c:/a.html” , false , system.text.encoding.getencoding( "gb2312" ) );//实例化写入类,保存路径假设为c:/a.html

saveapage.write(rich.text);//创建写入任务

saveapage.flush();//写入文件(即清理缓存流)

saveapage.close();//关闭写入类的对象

好了,这样便完成了一个网页的下载。最简化问题解决!

 

好了,下面的问题是,如何获得更多的网页?可以分两步:

1.    得到更多的地址

2.    下载地址指向的链接内容(和上面下载一页的方法一样)

循环进行上面两步即可以完成蜘蛛的全部功能了 '

要得到更多的地址,最好的办法是模拟人使用网页的办法。我们平时怎么浏览整个网站?无非是从主页依次点开各层链接而已。好了,思路出来了:

分析已经下载的主页文本,提取其中所有的url地址信息,再依次下载得到的url地址指向的链接即可。

现在网络上有不少web2.0的网站了,这对解析url地址有不小的负面作用。在web2.0出现前,所有的链接都是在href后面出现的,而现在却没有了这样的关键字,地址可能出现于任何的关键字之后。怎么办呢?

经过大量分析,笔者发现:其实现在所有的链接还有一个共性,即都包裹在双引号(””)当中,这便对解析提供了极大的方便。笔者将链接分为两类:

1.    完整链接,即:”http://www.163.com”类,其前面有明显的标志http://,这样的内容很好提取,只要用string的静态方法indexof()找出http://的位置以及从此位置算起第一个“””出现的位置(即链接结束的位置),再用substring()方法将地址提取出来即可。

2.    非完整链接,其形式一般为”/index.htm”,提取方法和完整链接的方法相同,只是判断它是不是链接上有一定难度(因为属性等其它信息也可能以“”/”开头,这时就很难判断了。笔者采取的方法是试下载,即下载一下试试,如果超时刚不是,不超时刚是。注意:要在它的前面加上根地址,如“http://www.163.com/index.htm”。

 

好了,我想蜘蛛的所有功能已经实现了吧?嘿嘿'

只是这样一个蜘蛛程序怕是效率万般低下,因为它只有一个线程,光解析下一层的链接都要花上不少时间,怎么办呢?当然是采取更优化的办法:多线程

 


 


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表