首页 > 学院 > 开发设计 > 正文

scrapy 坑之roboot协议

2019-11-06 06:09:30
字体:
来源:转载
供稿:网友

roboot协议也称为机器人协议,或者爬虫协议,他是指网站通过一个roboot.txt文件告诉遵循roboot协议的爬虫引擎哪些页面可以爬,哪些页面不能爬取。比如天猫的一些网页,搜索引擎就爬不到,但是这只是说,不让爬,并不是说不能爬。只需在scrapy中设置使此爬虫不遵循roboot协议即可。

做法:在setting.py中找到roboot的项(具体项的名字不记得了,在vim中只需搜索roboot即可。


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表