AI 爬虫的崛起：内容世界的“新访客”与“新挑战”AI爬虫正在重塑互联网！GPTBot和ClaudeBot流量已逼近Go

一、前言

互联网的内容生态正在经历一场深刻的变革。过去，网站的流量主要由人类用户和传统的搜索引擎爬虫（如 Googlebot、Bingbot）构成。搜索引擎爬虫的使命是索引网页，以便用户能够通过搜索找到信息。

然而，随着大型语言模型（LLM）技术的爆炸式发展，一个新的“访客”群体正在迅速崛起——AI 爬虫（AI Crawler）。这些爬虫，例如 OpenAI 的 GPTBot 和 Anthropic 的 ClaudeBot，不再是为了索引网页供人类搜索，而是为了一个更宏大的目标：为下一代人工智能模型提供训练数据。

Vercel 和 MERJ 的最新数据显示，这些 AI 爬虫的流量规模已经不容忽视。GPTBot 和 ClaudeBot 的请求量总和，已经占据了 Googlebot 流量的很大一部分。它们正在重塑网站的流量结构，也给网站所有者带来了新的挑战：我们该如何应对这些不请自来的“数据采集者”？

本文将深入剖析 AI 爬虫的规模、技术特征以及它们带来的问题，并为网站所有者提供实用的应对策略。

二、AI 爬虫的规模与特征

AI 爬虫的出现，标志着网络流量结构的一个重要转折点。它们与传统的搜索引擎爬虫在行为模式上有着显著的区别。

1. 规模的增长与地理的集中

根据最新的数据分析，AI 爬虫的流量规模已经达到了一个惊人的水平。GPTBot 和 ClaudeBot 的请求量总和，已经成为继 Googlebot 之后，网站最重要的爬虫流量来源。这表明，AI 模型的“饥饿感”正在驱动着巨大的数据采集需求。

值得注意的是，这些 AI 爬虫的地理分布呈现出高度的集中性。例如，GPTBot 和 ClaudeBot 的爬取流量几乎全部来自美国境内的少数几个数据中心。

相比之下，传统的 Googlebot 为了提高效率和覆盖面，会在全球多个地理位置部署爬虫，以实现分布式、就近的爬取。AI 爬虫的这种集中性，为网站所有者通过地理位置进行流量管理提供了可能。

2. JavaScript 渲染能力的缺失

这是 AI 爬虫与现代搜索引擎爬虫之间最核心的技术差异。

传统搜索引擎：Googlebot 和 AppleBot 等主流搜索引擎爬虫，都具备完整的 JavaScript 渲染能力。这意味着它们可以像普通浏览器一样执行 JavaScript、处理 AJAX 请求，并看到客户端渲染（CSR）后的最终页面内容。
主流 AI 爬虫：Vercel 的分析结果显示，大多数主流 AI 爬虫，包括 GPTBot、ClaudeBot、Meta-ExternalAgent 等，目前都不执行 JavaScript。

这个发现至关重要。它意味着，如果你的网站内容是完全依赖 JavaScript 在客户端渲染出来的，那么这些 AI 爬虫将无法“看到”这些内容。它们只能读取到服务器返回的初始 HTML 骨架。

尽管 AI 爬虫会抓取大量的 JavaScript 文件（例如 ClaudeBot 有超过 20% 的请求是针对 JS 文件），但它们的目的不是执行这些代码，而是将 JS 文件作为文本数据来收集，用于训练模型理解代码逻辑或作为文本语料。

三、AI 爬虫的“低效”与“偏好”

除了技术能力上的差异，AI 爬虫在爬取行为上也表现出明显的“不成熟”和“偏好”。

1. 爬取效率的低下

AI 爬虫在爬取效率上远不如经过多年优化的 Googlebot。

高 404 错误率：GPTBot 和 ClaudeBot 都有超过 30% 的请求最终返回 404 错误。这意味着它们频繁地尝试抓取不存在的页面或过时的资源。
高重定向跟随率：它们在跟随重定向（Redirects）上也花费了大量时间。

相比之下，Googlebot 的 404 错误率和重定向跟随率都非常低。这种对比表明，AI 爬虫的 URL 选择和验证策略仍处于早期阶段，效率低下，给网站服务器带来了不必要的负担。

2. 内容类型的偏好

AI 爬虫在内容类型上表现出不同的“胃口”：

GPTBot：主要偏好 HTML 内容，这符合其作为文本模型训练数据采集者的身份。
ClaudeBot：对图像（Image）内容有显著的偏好，其抓取图像的比例远高于其他爬虫。这可能与 Anthropic 模型对多模态数据的训练需求有关。

这种偏好提醒我们，AI 爬虫正在以一种全新的、非索引的方式来评估和收集网络内容。

四、如何应对 AI 爬虫？

AI 爬虫的崛起，对那些依赖内容盈利的平台构成了直接威胁。我们以一个典型的内容社区平台（如掘金或知乎为例，来探讨如何应对。

内容社区平台（如掘金或知乎）的核心矛盾在于：它们希望内容能被 Google 等搜索引擎索引，以获取巨大的搜索流量；但同时，它们又需要保护用户的原创内容，不希望这些内容被 AI 爬虫无偿、无限制地抓取，用于训练竞争对手的模型。这是一种典型的“希望被搜索，但不希望被训练”的矛盾。

网站所有者可以采取以下三种策略来应对：

策略一：Robots.txt 的“君子协定”

最简单、最基础的防御手段是使用 robots.txt 文件。这个文件是爬虫进入网站时首先查看的“行为准则”。

User-agent: GPTBot
Disallow: /

原理：通过指定 User-agent（例如 GPTBot 或 ClaudeBot），并设置 Disallow: /，可以告知该爬虫不要抓取网站的任何内容。
局限：这是一种君子协定。它依赖于爬虫的自觉性。对于那些不遵守规则的恶意爬虫，robots.txt 毫无作用。但对于像 OpenAI 和 Anthropic 这样的大公司，它们通常会遵守这些规则。

策略二：利用 JavaScript 渲染的差异

利用 AI 爬虫不执行 JavaScript 的特性，可以实现一种“内容混淆”的策略，以平衡“被搜索”和“防训练”的需求。

关键内容服务器端渲染（SSR）：对于社区文章或问答的主体内容，必须采用服务器端渲染（SSR）或静态生成（SSG）。因为 Googlebot 具备 JS 渲染能力，但 SSR 能确保内容在初始 HTML 中，让 Googlebot 快速索引，从而获得搜索流量。
非关键内容客户端渲染（CSR）：对于那些不希望被 AI 爬虫轻易获取的非关键内容（例如文章的完整评论区、点赞数、用户头像等），可以采用客户端渲染（CSR）。这样，AI 爬虫只能看到一个空的 HTML 骨架，而无法获取这些动态内容。

注意：这种策略的关键在于分层渲染。将需要 SEO 的内容 SSR，将需要保护或不重要的内容 CSR，从而实现对不同爬虫的差异化对待。

策略三：网络层面的直接防御

对于那些不遵守 robots.txt 规则的爬虫，或者当网站需要更严格的保护时，需要在网络层面进行防御。

IP 地址和 User-Agent 过滤：由于 AI 爬虫的 IP 地址高度集中，网站可以通过 CDN 或 WAF（Web Application Firewall）设置规则，直接阻止来自特定 IP 范围或特定 User-Agent 的请求。
Vercel Firewall 等工具：一些托管服务商提供了专门的 AI 爬虫防火墙规则，允许网站所有者一键阻止或限制主流 AI 爬虫的访问。这是一种更高效、更直接的防御手段。

五、结论

AI 爬虫的崛起是 LLM 时代不可逆转的趋势。它们是人工智能模型获取知识的“触手”，其流量规模和行为模式正在深刻地改变着互联网。

网站所有者必须转变观念，将 AI 爬虫视为一种新的、具有独特技术特征的流量类型。应对策略的核心在于：

理解差异：认识到大多数 AI 爬虫不执行 JavaScript。
分层防御：结合 robots.txt（君子协定）、渲染策略（SSR/CSR 混用）和网络层防御（IP/User-Agent 过滤）。

未来，AI 爬虫无疑会变得更加智能，它们可能会开始执行 JavaScript，甚至模拟人类行为。届时，网站的防御策略也将需要不断升级。