考虑到平时要做优化,看百度爬虫到底爬取了哪些目录,哪些链接或目录被爬取的次数比较少,以便对页面的链接做nofollow,robots.txt等屏蔽处理,引导爬虫抓取哪些需要被爬取的页面,提升整体的收录率。
总结了用的较多几条命令:
1. 百度蜘蛛爬行的次数 cat access_log | grep Baiduspider+ | wc 最左面的数值显示的就是爬行次数。
2. 百度蜘蛛的详细记录(Ctrl+C可以终止) cat access_log | grep Baiduspider+ 也可以用下面的命令: cat access_log | grep Baiduspider+ | tail -n 10 cat access_log | grep Baiduspider+ | head -n 10 只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
3. 百度蜘蛛抓取首页的详细记录 cat access_log | grep Baiduspider+ | grep “GET / HTTP”
4. 百度蜘蛛派性记录时间点分布 cat access_log | grep “Baiduspider+” | awk ‘{print $4}’
5. 百度蜘蛛爬行页面按次数降序列表 cat access_log | grep “Baiduspider+” | awk ‘{print $7}’ | sort | uniq -c | sort
新闻热点
疑难解答