Robots.txt
什么是 Robots.txt?
Robots.txt 是一个文件,它告诉搜索引擎蜘蛛不要抓取网站的某些页面或部分。大多数主要搜索引擎(包括 Google、Bing 和 Yahoo)都能识别并尊重 Robots.txt 请求。
为什么 Robots.txt 很重要?
大多数网站不需要robots.txt文件。
这是因为 Google 通常可以找到您网站上的所有重要页面并将其编入索引。
而且他们会自动不索引不重要的页面或其他页面的重复版本。
也就是说,您想要使用 robots.txt 文件的主要原因有 3 个。
阻止非公共页面:有时您的网站上有您不想编入索引的页面。例如,您可能有一个页面的暂存版本。或登录页面。这些页面需要存在。但是您不希望随机的人降落在他们身上。在这种情况下,您会使用 robots.txt 来阻止搜索引擎抓取工具和机器人访问这些页面。
最大化抓取预算:如果您很难将所有页面编入索引,则您可能遇到了抓取预算问题。通过使用 robots.txt 阻止不重要的页面,Googlebot 可以将更多的抓取预算花在真正重要的页面上。
防止资源索引:使用元指令与 Robots.txt 一样可以防止页面被索引。但是,元指令不适用于多媒体资源,例如 PDF 和图像。这就是 robots.txt 发挥作用的地方。
底线?Robots.txt 告诉搜索引擎蜘蛛不要抓取您网站上的特定页面。
您可以在Google Search Console中查看已编入索引的页面数量。
如果该数字与您要编入索引的页数相匹配,则无需费心使用 Robots.txt 文件。
但是,如果该数字高于您的预期(并且您注意到不应被索引的索引 URL),那么就该为您的网站创建一个 robots.txt 文件了。
最佳实践
创建一个 Robots.txt 文件
您的第一步是实际创建您的 robots.txt 文件。
作为一个文本文件,您实际上可以使用 Windows 记事本创建一个。
而且无论您最终如何制作 robots.txt 文件,其格式都完全相同:
用户代理:X
不允许:Y
用户代理是您正在与之交谈的特定机器人。
“不允许”之后的所有内容都是您要阻止的页面或部分。
这是一个例子:
用户代理:googlebot
不允许:/images
此规则会告诉 Googlebot 不要索引您网站的图像文件夹。
您还可以使用星号 (*) 与停在您网站的所有机器人对话。
这是一个例子:
用户代理:*
不允许:/images
“*”告诉所有蜘蛛不要抓取您的图像文件夹。
这只是使用 robots.txt 文件的众多方法之一。这份来自 Google 的有用指南提供了更多信息,您可以使用不同的规则来阻止或允许机器人抓取您网站的不同页面。
使您的 Robots.txt 文件易于查找
一旦您有了 robots.txt 文件,就可以让它生效了。
从技术上讲,您可以将 robots.txt 文件放在站点的任何主目录中。
但是为了增加找到您的 robots.txt 文件的几率,我建议将其放置在:
https://example.com/robots.txt
(请注意,您的 robots.txt 文件区分大小写。因此请确保在文件名中使用小写字母“r”)
检查错误和错误
正确设置 robots.txt 文件非常重要。一个错误,您的整个网站可能会被取消索引。
幸运的是,您不需要希望您的代码设置正确。Google 有一个漂亮的机器人测试工具,您可以使用它:
它会向您显示您的 robots.txt 文件……以及它发现的任何错误和警告:
![Uploading file…]()
如您所见,我们阻止蜘蛛抓取我们的 WP 管理页面。
我们还使用 robots.txt 来阻止抓取 WordPress 自动生成的标签页(以限制重复内容)。
Robots.txt 与元指令
当您可以使用“ noindex ”元标记在页面级别阻止页面时,为什么还要使用 robots.txt ?
正如我之前提到的,noindex 标签很难在视频和 PDF 等多媒体资源上实现。
此外,如果您有数千个要阻止的页面,有时使用 robots.txt 阻止该站点的整个部分比手动向每个页面添加 noindex 标记更容易。
还有一些极端情况,您不想在 Google 登陆带有 noindex 标签的页面上浪费任何抓取预算。
那说:
在这三种极端情况之外,我建议使用元指令而不是 robots.txt。它们更容易实施。并且发生灾难的可能性较小(例如阻止整个站点)。
了解更多
了解 robots.txt 文件:关于他们如何使用和解释 robots.txt 的有用指南。
什么是 Robots.txt 文件?(SEO + Key Insight 概述):关于 robots.txt 不同用例的简单视频。