90% 的人都用错了!robots.txt 正确用法全揭秘!

390 阅读7分钟

你知道吗?实际上,90%的网站管理员在使用robots.txt时都存在一些常见错误!这个往往被忽视的小文件,实际上是你的网站与搜索引擎之间至关重要的桥梁。如果设置不当,它可能会导致你的网页被搜索引擎“遗忘”,从而错失大量潜在流量。

你的网站SEO表现是否不佳?robots.txt是否设置正确?下面我将为你揭示robots.txt的正确使用方法,让你的网站在搜索引擎中脱颖而出!

image.png

一、你认识robots.txt吗?

robots.txt是一个位于网站根目录的文本文件,用于告知搜索引擎爬虫( crawler 哪些页面应被抓取,哪些页面不应被抓取。robots.txt文件是遵循“机器人排除协议”(Robots Exclusion Protocol,REP)的标准文本文件。

通过使用robots.txt文件,网站管理员可以控制搜索引擎对特定页面或目录的访问。例如,您可能希望保护某些敏感页面或不希望不必要的内容被索引。

robots.txt的限制

尽管robots.txt能够有效地控制爬虫的访问,但它并不能完全阻止某些页面被索引。以下是robots.txt的一些局限性:

  1. 外部链接:即使您在robots.txt中阻止了某个页面,其他网站的外部链接仍然可能导致搜索引擎访问并索引该页面。这意味着,如果有人在互联网上链接到您的被阻止页面,搜索引擎可能仍会找到并索引它。
  2. 非遵循协议的爬虫:并非所有的搜索引擎都严格遵循robots.txt协议。一些爬虫可能会忽视robots.txt文件中的指令,从而访问并索引您希望隐藏的页面。

image.png

robots.txt的指令

在robots.txt文件中,有几种主要指令可以使用:

  • User-agent:指定特定的搜索引擎爬虫。
  • Allow:允许爬虫访问某个页面或目录。
  • Disallow:阻止爬虫访问某个页面或目录。
  • Crawl-delay:设置爬虫访问的延迟。
  • Sitemap:提供网站地图的链接,帮助爬虫更好地抓取网站。

提交robots.txt的必要性

虽然大多数搜索引擎会自动查找网站的robots.txt文件,但提交该文件可以帮助确保爬虫准确地遵循您的指令。提交robots.txt文件后,您可以在Google Search Console等工具中验证其有效性。

image.png

二、robots.txt对SEO的好处

1、集中爬虫资源,提高重要页面排名

通过robots.txt文件,您可以指引搜索引擎集中资源于最重要的页面,从而提高这些页面在搜索引擎结果中的排名。避免爬虫访问不重要的页面,有助于提高您的SEO效果。

2、避免重复内容,提高网站质量

在网站上,可能存在多个版本的相同内容(如产品页面)。通过使用robots.txt,您可以阻止搜索引擎索引这些重复内容,从而提高网站的整体质量和可用性。

3、保护网站隐私与安全

某些页面可能包含敏感信息,如后台管理页面、用户资料等。通过robots.txt文件,您可以防止搜索引擎访问这些页面,从而保护网站的隐私和安全。

4、避免浪费爬虫预算

每个网站都有有限的爬虫预算,即搜索引擎爬虫在抓取网站时所能使用的资源。合理使用robots.txt,可以避免浪费这些资源,让爬虫更有效地抓取重要内容。

image.png

三、如何使用robots.txt?

创建robots.txt的注意事项

在创建robots.txt文件时,有一些需要注意的事项:

文本编辑器选择:选择一个简单的文本编辑器(如Notepad或TextEdit),避免使用富文本格式编辑器,因为它们可能会添加不必要的格式。

行列格式要求:robots.txt文件应采用简单的行列格式,每条指令占一行。确保不使用多余的空格和行,以避免引起解析错误。

文件编码与命名规范:确保文件使用UTF-8编码,并命名为“robots.txt”。文件名必须全小写,且不应包含任何额外的后缀。

文件大小限制:robots.txt文件的大小通常限制在500KB以内,确保文件内容简洁明了。

image.png

放置与变更robots.txt的规则

放置位置要求

robots.txt文件必须放置在网站的根目录下,例如:https://www.example.com/robots.txt。这样,搜索引擎才能在访问您网站时找到该文件。

变更后的提交与生效时间

在更改robots.txt文件后,您需要将其重新提交给搜索引擎。通常情况下,搜索引擎会在几个小时内更新文件,但具体生效时间可能因搜索引擎而异。

四、如何撰写robots.txt

robots.txt内容解析

创建robots.txt文件时,您需要了解每个指令的含义及其用法。以下是常用指令的解析:

User-agent

User-agent指令用于指定某个搜索引擎爬虫。例如:

image.png 上述示例表示所有爬虫(*)都不允许访问/private/目录。

Allow

Allow指令用于允许特定页面或目录的访问。例如:

image.png

在此示例中,所有爬虫可以访问/public/目录,但不允许访问/private/

Disallow

Disallow指令用于禁止特定页面或目录的访问。它是robots.txt文件中最常用的指令之一。例如:

image.png

这表示Googlebot不允许访问/no-google/目录。

Crawl-delay

Crawl-delay指令用于设置爬虫访问的延迟。例如:

image.png

这表示所有爬虫在访问网站时需要等待10秒。

Sitemap

Sitemap指令用于提供网站地图的链接,帮助爬虫更好地抓取网站。例如:

image.png

具体案例分析

以下是几个具体的robots.txt撰写案例:

  • 允许所有检索器访问全部内容

image.png

该示例表示允许所有爬虫访问网站的所有内容。

  • 阻止特定检索器访问特定内容

image.png 上述示例禁止“BadBot”爬虫访问整个网站。

五、如何测试robots.txt?

使用Google Search Console的robots.txt测试工具

Google Search Console提供了一个方便的工具,帮助您测试robots.txt文件的有效性。通过该工具,您可以验证搜索引擎是否能够按照您设定的规则正确访问网站。

测试步骤

  1. 登录Google Search Console。
  2. 选择您要测试的网站。
  3. 找到“爬虫”菜单,点击“robots.txt测试”。
  4. 在测试框中输入您要测试的URL,点击“测试”按钮。

image.png

在测试过程中,请确保robots.txt文件的内容已更新,并检查测试结果,确保搜索引擎能够访问您希望其访问的页面。

六、meta robots与robots.txt的区别

robots.txtmeta robots都是用于管理搜索引擎爬虫访问网站内容的工具,但它们的作用有所不同。

robots.txt的主要功能

robots.txt主要用于控制搜索引擎爬虫对整个网站的访问,提供全局的指令:

  • User-agent: 指定爬虫
  • Disallow: 阻止访问
  • Allow: 允许访问

meta robots的作用与优势

meta robots是一种嵌入在HTML页面中的标签,用于控制搜索引擎对特定页面的索引和抓取。它提供了更细粒度的控制。

image.png

上述示例表示该页面不应被索引,且链接不应被跟踪。

总结

通过本文的介绍,我们深入了解了robots.txt的定义、用途以及如何合理使用这一工具。合理配置robots.txt文件,不仅可以提高网站的SEO效果,还能保护网站的隐私与安全。希望新手能够重视robots.txt的使用,并在实际操作中遵循最佳实践,从而优化网站在搜索引擎中的表现。

如需进一步学习SEO基础知识,或者获取免费的SEO检测报告,可以与****星海引擎****团队联系!