robots.txt文件是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
本文将为你介绍最常用的四种robots.txt文件格式。
1. 允许所有的搜索引擎访问网站的任何部分
user-agent: *
disallow:
(或者也可以建一个空文件 "/robots.txt")
2. 禁止所有搜索引擎访问网站的任何部分
user-agent: *
disallow: /
3. 禁止所有搜索引擎访问网站中所有的动态页面
user-agent: *
disallow: /*?*
4. 禁止网站上的程序文件被搜索引擎蜘蛛索引,这样可以节省服务器资源。
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
user-agent: *
disallow: /admin/ 后台管理文件
disallow: /require/ 程序文件
disallow: /attachment/ 附件
disallow: /images/ 图片
disallow: /data/ 数据库文件
disallow: /template/ 模板文件
disallow: /css/ 样式表文件
disallow: /lang/ 编码文件
disallow: /script/ 脚本文件
注:每个网站的文件夹名字可能会不一样
新闻热点
疑难解答