首页 > 服务器 > Linux服务器 > 正文

linux下5条提取百度蜘蛛Apache日志的命令

2024-09-05 23:01:05

字体：大中小

来源：转载

供稿：网友

考虑到平时要做优化，看百度爬虫到底爬取了哪些目录，哪些链接或目录被爬取的次数比较少，以便对页面的链接做nofollow，robots.txt等屏蔽处理，引导爬虫抓取哪些需要被爬取的页面，提升整体的收录率。

总结了用的较多几条命令：

提取Apache日志百度蜘蛛的相关爬行记录

1. 百度蜘蛛爬行的次数 cat access_log | grep Baiduspider+ | wc 最左面的数值显示的就是爬行次数。

2. 百度蜘蛛的详细记录(Ctrl+C可以终止) cat access_log | grep Baiduspider+ 也可以用下面的命令： cat access_log | grep Baiduspider+ | tail -n 10 cat access_log | grep Baiduspider+ | head -n 10 只看最后10条或最前10条，这用就能知道这个日志文件的开始记录的时间和日期。

3. 百度蜘蛛抓取首页的详细记录 cat access_log | grep Baiduspider+ | grep “GET / HTTP”

4. 百度蜘蛛派性记录时间点分布 cat access_log | grep “Baiduspider+” | awk ‘{print $4}’

5. 百度蜘蛛爬行页面按次数降序列表 cat access_log | grep “Baiduspider+” | awk ‘{print $7}’ | sort | uniq -c | sort

上一篇：CentOS中服务器时间设为自动同步的方法

下一篇：Linux用mrtg监控网络设备端口流量

学习交流

如何查找有故障的配件

如何查找有故障的配件...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

最牛同桌！我考了696分我同桌考了703分

2024-06-26 22:28:41

650分！高二女生考入北大：遗憾不能上高三

2024-06-26 22:26:16

男生估分600只考了397 妈妈：高考虽重要，但不代表所有

2024-06-26 22:23:01

唐尚珺回应是否会直播带货：有人出100万想和他合作！

2024-06-25 19:29:23

名校抢人名场面：清华、北大太拼了！

2024-06-25 19:22:14

男生高考语文满分！网友：第一次听说

2024-06-25 19:19:15

疑难解答

图片精选

网友关注