控制搜索引擎访问和索引你的网站

superadmin · 发表于 2007-9-20 22:15:51

原文：Controlling how search engines access and index your website
发表于: 2007 年 1 月 26 日上午 11:36:00

我经常被问到 Google（谷歌）和搜索引擎是怎样运转的。一个核心问题是：谷歌是怎样知道一个网站的哪些部分是网站所有者想让它们显示在搜索结果中？网站内容发布者能够指定部分网站不被搜索吗？好消息是，网站内容发布者可以使用很多方法控制你们的网页在搜索结果中的显示。

文件 robots.txt 是这里的主角，该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用 robots.txt 不同层次地控制访问，比如让搜索引擎只访问整个网站，单个目录，特定类型的网页，或者某一网页。有效地使用 robots.txt 能让你更好地控制对你的网站的搜索，但是如何达到这一目标不是很显而易见的。这是我们关于如何使用 robots.txt 来控制对你的网站的存取的一系列帖子的第一篇。

文件 robots.txt 有什么用？

互联网真的很大。你只是不相信它是怎样地无穷无尽地大。你也许认为维护网站耗费好多精力，但是那只是“网海一粟”。（对 Douglas Adams 致以诚挚的道歉）

象谷歌这样的搜索引擎会读取所有信息并对这些信息索引，索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。

为了做到这一点谷歌的一些电脑不断抓取网站，他们有一个谷歌所知道的所有网站的名单，他们阅读每个网站的所有网页。所有这些机器被称为谣 Googlebot。一般来说，你是愿意让 Googlebot 访问你的网站，这样你的网页才可以被人们在谷歌搜到。

然而，对你的网站上的某几页，你可能不想让谷歌索引。举例来说，你可能有一个目录包含内部日志，或者你可能有些新闻文章只能在支付费用后才能访问。你可以通过创建一个文本文件名为 robots.txt 的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件 robots.txt 包含了一个搜索引擎不能访问的页面的清单。创建一个 robots.txt 是直截了当的，它允许你用一套精密分层控制搜索引擎对你网站的访问。

精细控制

除了 robots.txt 文件让您为你的一大堆文件简洁明了给出指令外，你也可以利用 robots META 标签来精确控制对你的单个网页的访问。为了做到这一点，你只需要对你的 HTML 网页添加特定的 META 标签来控制怎样对单个网页索引。归而总之，robots.txt 和 META 标签让你更灵活地表达复杂的访问规定变得比较容易。

一个简单的例子

这里是一个简单的例子，它是一个 robots.txt 文件。

User-Agent: Googlebot
Disallow: /logs/

User -Agent 行指明下面部分的一套指令只是为 Googlebot。所有主要搜索引擎都阅读并听从你放在 robots.txt 的指令。只要你愿意，你可以为不同的搜索引擎指定不同的规则。Disallow 行告诉 Googlebot 不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索结果中。

禁止访问单个文件

如果你有一篇只有注册用户才能访问的文章，你一定想让它排除在谷歌的结果之外。为了做到这一点，你只需要在该文章对应的 HTML 文件中添加一个 META 标签。该文件的代码的最开始有点像：

<html>
<head>
<meta name="googlebot" content="noindex">
...

这段代码会阻止谷歌索引此文件。标签 META 特别有用，如果你只被允许编辑单个文件，而不是全站的 robots.txt。他们还允许你逐页地指定复杂的访问控制规定。

了解更多

你可以在 http://www.robotstxt.org/ 和谷歌的站长帮助中心找到更多有关 robots.txt 的更多有用信息，包括：

如何构造一个 robots.txt 文件
对谷歌使用的每个 User-agent 的描述
如何使用模式匹配
要多久我们才重新抓取您的 robots.txt 文件？

我们也在我们的站长博客里写了一些关于 robots.txt 的帖子，也许对你有用。例如：

使用 robots.txt 文件
Googlebot 汇总

这里还有一个主要搜索引擎使用的机器人的有用清单：http://www.robotstxt.org/wc/active/html/index.html

转载自谷歌中文网站管理员博客

		自动登录	找回密码
密码			注册

全国各地医院查询	重量转换换算	RGB颜色查询	交通标志大全	各类快递查询
简体繁体转换	黄金价格实时走势	万年历查询	实时汇率转换	列车时刻查询
在线翻译工具	CSS中文手册	HTML学习教程	MySQL中文手册	JavaScript中文手册
PHP安全基础手册	PHP5面向对象编程教程	正则表达式系统教程	SQL Server精华	Apache 2.2 中文手册
DOS命令全集指南	windows脚本技术中文版	股票行情查询	历史上的今天	邮编区号查询
长度转换换算	货币汇率转换	常用电话号码	体育彩票查询	手机位置查询
域名Whois信息查询	谷歌PR值查询	台州网站建设	台州网站开发	台州域名注册
天气预报查询	长度转换换算器	在线电子地图	车牌号码查询	中国百家姓查询

控制搜索引擎访问和索引你的网站

相关帖子