首页 > CMS > Wordpress > 正文

WordPress博客如何记录搜索引擎蜘蛛爬行痕迹

2024-09-07 00:50:09
字体:
来源:转载
供稿:网友

要统计蜘蛛爬行痕迹我们在php中使用HTTP_USER_AGENT获取用户行为信息,然后再判断是不是包括搜索引擎蜘蛛的相关参数了,如果有就是搜索引擎蜘蛛了.

WordPress博客记录搜索引擎蜘蛛爬行痕迹插件:

1、搜索引擎蜘蛛爬行记录器Spider Tracker插件可以记录百度、谷歌、雅虎、必应、搜狗、搜搜6种搜索引擎的蜘蛛爬行痕迹,并生成统计图表,可以清晰的看到,近6日的各种搜索引擎的蜘蛛数量,以及当日的哪些时间,蜘蛛来过站里,又抓取了哪些网址。

2、wp-log-robots 插件大小仅3KB,wp-log-robots是一个记录搜索引擎蜘蛛爬虫活动记录的WordPress插件,插件主文件只有一个 wp-log-robots.php,关键它的统计数据不用添加到数据库中,而是以文本文件记录下来的,比如你的博客地址是:http://www.Vevb.com,那么机器人日志文件的存放位置是:/robots_log.txt 。我们只要把这个地址添加到搜藏夹,就可以方便的查看各个搜索引擎的抓取情况。

在博客后台插件-安装插件-搜索“wp-log-robots”-点击现在安装,然后再插件页面启用该插件,不需要设置,就会开始记录搜索引擎机器人的爬行记录,提示:插件刚启动的时候robots_log.txt 文件还没有建立,是个404页面,要等有搜索引擎来过之后,才会建立这个文件.)

WordPress博客记录搜索引擎蜘蛛爬行痕迹代码:

1.首先,在wordpress主题根目录建立一个robots.php文件,写入以下内容,支持搜索引擎如下,可以记录Baidu,Google,Bing,Yahoo,Soso,Sogou,Yodao爬行网站的记录! 

php代码如下:

  1. <?php  
  2. function get_naps_bot()  
  3. {  
  4. $useragent = strtolower($_SERVER['HTTP_USER_AGENT']);  
  5. if (strpos($useragent'googlebot') !== false){  
  6. return 'Google';  
  7. }  
  8. if (strpos($useragent'baiduspider') !== false){  
  9. return 'Baidu';  
  10. }  
  11. if (strpos($useragent'msnbot') !== false){  
  12. return 'Bing';  
  13. }  
  14. if (strpos($useragent'slurp') !== false){  
  15. return 'Yahoo';  
  16. }  
  17. if (strpos($useragent'sosospider') !== false){  
  18. return 'Soso';  
  19. }  
  20. if (strpos($useragent'sogou spider') !== false){  
  21. return 'Sogou';  
  22. }  
  23. if (strpos($useragent'yodaobot') !== false){  
  24. return 'Yodao';  
  25. }  
  26. return false;  
  27. }  
  28. function nowtime(){  
  29. $date=date("Y-m-d.G:i:s");  
  30. return $date;  
  31. }  
  32. $searchbot = get_naps_bot();  
  33. if ($searchbot) {  
  34. $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);  
  35. $url=$_SERVER['HTTP_REFERER'];  
  36. $file="www.Vevb.com.txt";  
  37. $time=nowtime();  
  38. $data=fopen($file,"a");  
  39. fwrite($data,"Time:$time robot:$searchbot URL:$tlc_thispagen");  
  40. fclose($data);  
  41. }  
  42. //http://www.Vevb.com收集整理  
  43. ?> 

将其上传于你的主题目录内.

2.在Footer.php或header.php的适当位置添加以下代码调用robots.php,查看源代码打印帮助:<?php include(’robots.php’) ?>

程序原理:通过对蜘蛛标识符(如Baiduspider、Googlebot)的判断,记录蜘蛛爬行时间,并生成日志文件robotslogs.txt于根目录.

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表