《Robots.txt 协议标准》介绍

webptr · 发表于 2007-9-9 22:36:37

近期有很多站长咨询，怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问，我们对《Robots.txt 协议标准》进行了翻译，希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。

Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单，但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容，或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

下面我们就来详细介绍一下它的使用方法：

Robots.txt 文件应该放在网站根目录下，并且该文件是可以通过互联网进行访问的。

例如：
如果您的网站地址是 http://www.yourdomain.com/
那么，该文件必须能够通过 http://www.yourdomain.com/robots.txt 打开并看到里面的内容。

格式：

User-agent:

用于描述搜索引擎蜘蛛的名字，在" Robots.txt "文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在" Robots.txt "文件中，"User-agent:*"这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被Robot访问到。

举例：
例一："Disallow:/help"
是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。
例二："Disallow:/help/"
是指允许搜索引擎蜘蛛抓取/help.html，而不能抓取/help/index.html。
例三：Disallow记录为空

说明该网站的所有页面都允许被搜索引擎抓取，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎蜘蛛，该网站都是开放的可以被抓取的。

#:
Robots.txt 协议中的注释符。

举例：
例一：通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录，以及 "/tmp/"目录和 /foo.html 文件，设置方法如下：
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html

例二：通过"/robots.txt"只允许某个搜索引擎抓取，而禁止其他的搜索引擎抓取。
如：只允许名为"slurp"的搜索引擎蜘蛛抓取，而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容，设置方法如下：
User-agent: *
Disallow: /cgi/

User-agent: slurp
Disallow:

例三：禁止任何搜索引擎抓取我的网站，设置方法如下：
User-agent: *
Disallow: /

例四：只禁止某个搜索引擎抓取我的网站
如：只禁止名为“slurp”的搜索引擎蜘蛛抓取，设置方法如下：
User-agent: slurp
Disallow: /

更多，请参考译文出处：http://www.robotstxt.org/wc/norobots.html

		自动登录	找回密码
密码			注册

全国各地医院查询	重量转换换算	RGB颜色查询	交通标志大全	各类快递查询
简体繁体转换	黄金价格实时走势	万年历查询	实时汇率转换	列车时刻查询
在线翻译工具	CSS中文手册	HTML学习教程	MySQL中文手册	JavaScript中文手册
PHP安全基础手册	PHP5面向对象编程教程	正则表达式系统教程	SQL Server精华	Apache 2.2 中文手册
DOS命令全集指南	windows脚本技术中文版	股票行情查询	历史上的今天	邮编区号查询
长度转换换算	货币汇率转换	常用电话号码	体育彩票查询	手机位置查询
域名Whois信息查询	谷歌PR值查询	台州网站建设	台州网站开发	台州域名注册
天气预报查询	长度转换换算器	在线电子地图	车牌号码查询	中国百家姓查询

《Robots.txt 协议标准》介绍

相关帖子

浏览过的版块