搜索引擎蜘蛛其实就是搜索引擎的抓取程序,叫法也不统一,有叫机器人的,也有叫爬行器的,还有叫爬虫的等等。
因为搜索引擎的抓取方式是通过链接来实现的,一个个的链接连在一起,整合起来就好像是一张巨大的蜘蛛网,所以被称大家通俗的称之为蜘蛛。
蜘蛛的工作方式是从已知的网页出发,通过网页中的链接地址寻找到其它的网页,然后又通过这个网页上面的链接找到其它的网页,这样子一直循环下去。
蜘蛛虽然工作的很勤劳,但是互联网上的网页太多了,对于搜索引擎来说要将所有的网页抓取到几乎是不可能的,从目前公布的数据来开,搜索引擎能够抓取到全部网页的百分之四十左右,这已经很了不起了。
在网页抓取的时候,蜘蛛一般会采用两种策略,分别是:深度优先和广度优先。深度优先是指蜘蛛会从起始页开始往下跟踪,处理完一条线路之后返回到起始页,再继续跟踪。广度优先是指蜘蛛会先抓取到网站中的所有链接,然后再选择其中的一个链接网页,再继续抓取这个页面上的全部链接。
我们一起来看看目前主流搜索引擎蜘蛛的名字吧。
百度蜘蛛:baiduspider
google蜘蛛: googlebot
yahoo蜘蛛:slurp
soso蜘蛛:Sosospider
搜狗蜘蛛:Sogou web spider
lexa蜘蛛:ia_archiver
必应蜘蛛:msnbot
有道蜘蛛:YodaoBot和OutfoxBot
新闻热点
疑难解答