robots协议是什么?robots协议的意义何在?robots协议是什么样的?想要了解robots协议请看以下文章!
首先robots文件指的是带有.txt的文件,robots.txt的写法是做seo网站优化人员必须知道的(什么是robots.txt),但该如何写,禁止哪些、允许哪些,这就要我们自己设定了。
1、什么是robots协议? robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,更好的保护用户的隐私和版权信息。 大家记住,如果站内没有robots.txt文件,则表明蜘蛛可以任意抓取网站的文件。对于我们seo网站优化来说并不是所有文件都需要让蜘蛛抓取的。例如一些不重要的文件,或者网站的死链接,我们就需要使用robots.txt来屏蔽掉,不让他抓取。
2、robots.txt文件存放在网站的什么地方robots.txt文件存放在我们网站的根目录下,我们如何检测站点里面有没有robots.txt文件,我们只需要在网站的根域名后面输入robots.txt
3、robots.txt文件书写规则:• User-agent: 蜘蛛名称• Disallow: 内容名称 (禁止抓取的内容)• Allow:内容名称(允许抓取的内容)。
注意事项:第一点是正常情况下我们书写这个robots文件的时候一般很少用到ALLOW,但是robots这个文件必须且至少要写一条disallow记录。第二点是robots.txt 这个文件名要小写的。
各大搜索引擎蜘蛛名称,我们需要把这些带用的蜘蛛名称记下来: • 谷歌:googlebot • 百度:baiduspider • MSN:MSNbot • 雅虎:Slurp • 有道:YoudaoBot • 搜搜:Sosospider • 搜狗:sogou spider • 360:360Spider (haosouSpider) • alexa:ia_archiver
通配符说明: – *表示所有搜索引擎,用于指定蜘蛛使用。 – $表示以某字符串结尾 – /表示当前目录下的所有内容
指定蜘蛛 • User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符 禁止写法 • Disallow: /admin 这里定义是禁止爬寻admin目录 • Disallow: /a/*.htm 禁止访问/cgi-bin/目录下所有以“.htm”为后缀URL(包含子目录) • Disallow: /*?* 禁止访问网站中所有包含问号(?)的网址 • Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 • Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
新闻热点
疑难解答