网站的robots协议也可以叫做爬虫协议,通过这些协议可以告诉搜索引擎蜘蛛网站的哪些内容可以抓取,哪些不能抓取。具体解释可以参照百度百科。关于wordpress网站的robots协议,八猫做了详细的梳理。这里感谢悦听有声站长的分享。
1.什么是robots协议
网站的robots协议也可以叫做爬虫协议,通过这些协议可以告诉搜索引擎蜘蛛网站的哪些内容可以抓取,哪些不能抓取。具体解释可以参照百度百科。关于用法,其实很简单。写好robots.txt写好之后,把robots.txt协议上传到网站的根目录。这样每次搜索引擎抓取的时候就会遵循robots.txt协议上的内容进行抓取。不过需要注意的是:
robots.txt在书写的时候一定要谨慎,因为不够谨慎的话导致网站收录收到影响。比如下面这句:Disallow: /。Vevb.com
这个指的是不允许抓取网站上所有的内容。注意斜杠之前要有一个空格。包括其他的Disallow也是。一定要有空格,这个才是正确的robots写法。
2.wordpress网站如何使用书写robots协议
关于wordpress网站的robots协议,八猫做了如下汇总。这是悦听有声的站长分享出来的。简单说下 User-agent: 搜索引擎的名称。其他的可以具体看。
- User-agent: *
- Disallow: /wp-admin/
- Disallow: /wp-content/
- Disallow: /wp-includes/
- Disallow: /feed
- Disallow: comment-page-*
- Disallow: trackback
- Disallow: /?s=*
- Disallow: /*/?s=*
- Disallow: /?p=*
- Disallow: /?p=*&preview=true
- Disallow: /?page_id=*&preview=true
- Disallow: /wp-login.php
- User-agent: MJ12bot
- Disallow:/
- User-agent: Adsbot-Google
- Disallow: /
- User-agent: Feedfetcher-Google
- Disallow: /
- User-agent: Yahoo! Slurp
- Disallow: /
- User-agent: Yahoo! Slurp China
- Disallow: /
- User-agent: Yahoo!-AdCrawler
- Disallow: /
- User-agent: YoudaoBot
- Disallow: /
- User-agent: Sosospider
- Disallow: /
- User-agent: Sogou spider
- Disallow: /
- User-agent: Sogou web spider
- Disallow: /
- User-agent: MSNBot
- Disallow: /
新闻热点
疑难解答
图片精选