首页 > 网站 > 建站经验 > 正文

robots协议是什么?robots文件如何使用?

2024-04-25 20:46:00
字体:
来源:转载
供稿:网友
 Robots协议 

  Robots协议,又称为机器人协议,网站用来告知搜索引擎哪些页面可以被抓取,哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt文件中,它并不是一个命令,只是一种国际上通行的规范,将网站的一些不能被抓取的文件或者目录,记录在robots.txt中,当搜索引擎的蜘蛛访问这个网站时候,首先就会去访问robots文件,得知不能被抓取目录和文件信息。 

  Robots文件的写法 

  User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 

  Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 

  Disallow: /admin/*.html 禁止访问/admin/目录下的所有以".html"为后缀的URL(包含子目录)。 

  Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址 

  Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 

  Disallow:/admin/adc.html 禁止爬取admin文件夹下面的adc.html文件。 

  Allow: 的用法同Disallow 相反 

  Sitemap: 告诉搜索引擎蜘蛛这个页面是网站地图 

  Robots案列说明 

  1, 禁止所有搜索引擎访问网站的任何部分 

  User-agent: * 

  Disallow: / 

  2, 拦截子目录中某个页面之外的其他所有页面 

  User-agent: * 

  Allow: /admin/login.html 

  Disallow: /admin/ 

  3, 要拦截对所有以 ABC 开头的子目录的访问 

  User-Agent:* 

  Disallow: /ABC*/ 

  4, 要拦截对所有包含问号 (?) 的网址的访问 

  User-agent: * 

  Disallow: /*?* 

  5, 要拦截以 .asp 结尾的网址 

  User-agent: * 

  Disallow: /*.asp$ 

  备注:1,*是通配符。2,?是匹配符。3,$是结束符 

  建议仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。 
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表