AI 爬虫的崛起:内容世界的“新访客”与“新挑战”

59 阅读7分钟

一、前言

互联网的内容生态正在经历一场深刻的变革。过去,网站的流量主要由人类用户和传统的搜索引擎爬虫(如 Googlebot、Bingbot)构成。搜索引擎爬虫的使命是索引网页,以便用户能够通过搜索找到信息。

然而,随着大型语言模型(LLM)技术的爆炸式发展,一个新的“访客”群体正在迅速崛起——AI 爬虫(AI Crawler)。这些爬虫,例如 OpenAI 的 GPTBot 和 Anthropic 的 ClaudeBot,不再是为了索引网页供人类搜索,而是为了一个更宏大的目标:为下一代人工智能模型提供训练数据

Vercel 和 MERJ 的最新数据显示,这些 AI 爬虫的流量规模已经不容忽视。GPTBot 和 ClaudeBot 的请求量总和,已经占据了 Googlebot 流量的很大一部分。它们正在重塑网站的流量结构,也给网站所有者带来了新的挑战:我们该如何应对这些不请自来的“数据采集者”?

本文将深入剖析 AI 爬虫的规模、技术特征以及它们带来的问题,并为网站所有者提供实用的应对策略。

二、AI 爬虫的规模与特征

AI 爬虫的出现,标志着网络流量结构的一个重要转折点。它们与传统的搜索引擎爬虫在行为模式上有着显著的区别。

1. 规模的增长与地理的集中

根据最新的数据分析,AI 爬虫的流量规模已经达到了一个惊人的水平。GPTBot 和 ClaudeBot 的请求量总和,已经成为继 Googlebot 之后,网站最重要的爬虫流量来源。这表明,AI 模型的“饥饿感”正在驱动着巨大的数据采集需求。

值得注意的是,这些 AI 爬虫的地理分布呈现出高度的集中性。例如,GPTBot 和 ClaudeBot 的爬取流量几乎全部来自美国境内的少数几个数据中心。

相比之下,传统的 Googlebot 为了提高效率和覆盖面,会在全球多个地理位置部署爬虫,以实现分布式、就近的爬取。AI 爬虫的这种集中性,为网站所有者通过地理位置进行流量管理提供了可能。

2. JavaScript 渲染能力的缺失

这是 AI 爬虫与现代搜索引擎爬虫之间最核心的技术差异。

  • 传统搜索引擎:Googlebot 和 AppleBot 等主流搜索引擎爬虫,都具备完整的 JavaScript 渲染能力。这意味着它们可以像普通浏览器一样执行 JavaScript、处理 AJAX 请求,并看到客户端渲染(CSR)后的最终页面内容。
  • 主流 AI 爬虫:Vercel 的分析结果显示,大多数主流 AI 爬虫,包括 GPTBot、ClaudeBot、Meta-ExternalAgent 等,目前都不执行 JavaScript

这个发现至关重要。它意味着,如果你的网站内容是完全依赖 JavaScript 在客户端渲染出来的,那么这些 AI 爬虫将无法“看到”这些内容。它们只能读取到服务器返回的初始 HTML 骨架

尽管 AI 爬虫会抓取大量的 JavaScript 文件(例如 ClaudeBot 有超过 20% 的请求是针对 JS 文件),但它们的目的不是执行这些代码,而是将 JS 文件作为文本数据来收集,用于训练模型理解代码逻辑或作为文本语料。

三、AI 爬虫的“低效”与“偏好”

除了技术能力上的差异,AI 爬虫在爬取行为上也表现出明显的“不成熟”和“偏好”。

1. 爬取效率的低下

AI 爬虫在爬取效率上远不如经过多年优化的 Googlebot。

  • 高 404 错误率:GPTBot 和 ClaudeBot 都有超过 30% 的请求最终返回 404 错误。这意味着它们频繁地尝试抓取不存在的页面或过时的资源。
  • 高重定向跟随率:它们在跟随重定向(Redirects)上也花费了大量时间。

相比之下,Googlebot 的 404 错误率和重定向跟随率都非常低。这种对比表明,AI 爬虫的 URL 选择和验证策略仍处于早期阶段,效率低下,给网站服务器带来了不必要的负担。

2. 内容类型的偏好

AI 爬虫在内容类型上表现出不同的“胃口”:

  • GPTBot:主要偏好 HTML 内容,这符合其作为文本模型训练数据采集者的身份。
  • ClaudeBot:对图像(Image)内容有显著的偏好,其抓取图像的比例远高于其他爬虫。这可能与 Anthropic 模型对多模态数据的训练需求有关。

这种偏好提醒我们,AI 爬虫正在以一种全新的、非索引的方式来评估和收集网络内容。

四、如何应对 AI 爬虫?

AI 爬虫的崛起,对那些依赖内容盈利的平台构成了直接威胁。我们以一个典型的内容社区平台(如掘金或知乎为例,来探讨如何应对。

内容社区平台(如掘金或知乎)的核心矛盾在于:它们希望内容能被 Google 等搜索引擎索引,以获取巨大的搜索流量;但同时,它们又需要保护用户的原创内容,不希望这些内容被 AI 爬虫无偿、无限制地抓取,用于训练竞争对手的模型。这是一种典型的“希望被搜索,但不希望被训练”的矛盾。

网站所有者可以采取以下三种策略来应对:

策略一:Robots.txt 的“君子协定”

最简单、最基础的防御手段是使用 robots.txt 文件。这个文件是爬虫进入网站时首先查看的“行为准则”。

User-agent: GPTBot
Disallow: /
  • 原理:通过指定 User-agent(例如 GPTBotClaudeBot),并设置 Disallow: /,可以告知该爬虫不要抓取网站的任何内容。
  • 局限:这是一种君子协定。它依赖于爬虫的自觉性。对于那些不遵守规则的恶意爬虫,robots.txt 毫无作用。但对于像 OpenAI 和 Anthropic 这样的大公司,它们通常会遵守这些规则。

策略二:利用 JavaScript 渲染的差异

利用 AI 爬虫不执行 JavaScript 的特性,可以实现一种“内容混淆”的策略,以平衡“被搜索”和“防训练”的需求。

  • 关键内容服务器端渲染(SSR):对于社区文章或问答的主体内容,必须采用服务器端渲染(SSR)或静态生成(SSG)。因为 Googlebot 具备 JS 渲染能力,但 SSR 能确保内容在初始 HTML 中,让 Googlebot 快速索引,从而获得搜索流量。
  • 非关键内容客户端渲染(CSR):对于那些不希望被 AI 爬虫轻易获取的非关键内容(例如文章的完整评论区、点赞数、用户头像等),可以采用客户端渲染(CSR)。这样,AI 爬虫只能看到一个空的 HTML 骨架,而无法获取这些动态内容。

注意:这种策略的关键在于分层渲染。将需要 SEO 的内容 SSR,将需要保护或不重要的内容 CSR,从而实现对不同爬虫的差异化对待。

策略三:网络层面的直接防御

对于那些不遵守 robots.txt 规则的爬虫,或者当网站需要更严格的保护时,需要在网络层面进行防御。

  • IP 地址和 User-Agent 过滤:由于 AI 爬虫的 IP 地址高度集中,网站可以通过 CDN 或 WAF(Web Application Firewall)设置规则,直接阻止来自特定 IP 范围或特定 User-Agent 的请求。
  • Vercel Firewall 等工具:一些托管服务商提供了专门的 AI 爬虫防火墙规则,允许网站所有者一键阻止或限制主流 AI 爬虫的访问。这是一种更高效、更直接的防御手段。

五、结论

AI 爬虫的崛起是 LLM 时代不可逆转的趋势。它们是人工智能模型获取知识的“触手”,其流量规模和行为模式正在深刻地改变着互联网。

网站所有者必须转变观念,将 AI 爬虫视为一种新的、具有独特技术特征的流量类型。应对策略的核心在于:

  1. 理解差异:认识到大多数 AI 爬虫不执行 JavaScript
  2. 分层防御:结合 robots.txt(君子协定)、渲染策略(SSR/CSR 混用)和网络层防御(IP/User-Agent 过滤)。

未来,AI 爬虫无疑会变得更加智能,它们可能会开始执行 JavaScript,甚至模拟人类行为。届时,网站的防御策略也将需要不断升级。