robots协议是什么？robots文件如何使用？

2024-04-25 20:46:00

字体：大中小

来源：转载

供稿：网友

　Robots协议

　　Robots协议，又称为机器人协议，网站用来告知搜索引擎哪些页面可以被抓取，哪些页面不能被抓取的。体现在位于网站根目录下的robots.txt文件中，它并不是一个命令，只是一种国际上通行的规范，将网站的一些不能被抓取的文件或者目录，记录在robots.txt中，当搜索引擎的蜘蛛访问这个网站时候，首先就会去访问robots文件，得知不能被抓取目录和文件信息。

　　Robots文件的写法

　　User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

　　Disallow: /admin/*.html 禁止访问/admin/目录下的所有以".html"为后缀的URL(包含子目录)。

　　Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

　　Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

　　Disallow:/admin/adc.html 禁止爬取admin文件夹下面的adc.html文件。

　　Allow: 的用法同Disallow 相反

　　Sitemap: 告诉搜索引擎蜘蛛这个页面是网站地图

　　Robots案列说明

　　1，禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　2，拦截子目录中某个页面之外的其他所有页面

　　User-agent: *

　　Allow: /admin/login.html

　　Disallow: /admin/

　　3，要拦截对所有以 ABC 开头的子目录的访问

　　User-Agent:*

　　Disallow: /ABC*/

　　4，要拦截对所有包含问号 (?) 的网址的访问

　　User-agent: *

　　Disallow: /*?*

　　5，要拦截以 .asp 结尾的网址

　　User-agent: *

　　Disallow: /*.asp$

　　备注：1，*是通配符。2，?是匹配符。3，$是结束符

　　建议仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

上一篇：JS调用或插入阿里妈妈广告代码方法

下一篇：百度联盟广告异步加载最优解决方案

学习交流

硬盘分区如何设置准确的分区空间

硬盘分区如何设置准确的分区空间...

热门图片

猜你喜欢的新闻

猜你喜欢的关注