1600 万次对话,24000 个假账号:Anthropic 指控中国 AI 实验室"偷"了 Claude

0 阅读6分钟

1600 万次对话,24000 个假账号:Anthropic 指控中国 AI 实验室"偷"了 Claude

如果你能用对话的方式"复制"一个 AI 的能力,你会怎么做?

DeepSeek、Moonshot AI(月之暗面)和 MiniMax 给出了答案:注册 24000 个假账号,和 Claude 对话 1600 万次,然后用这些对话数据来训练自己的模型。

Anthropic 在 2 月 23 日发了一篇技术博客,详细记录了这三场攻击的规模、手法和归因证据。这不是含糊的指控 — 是带着 metadata、流量模式和时间线对比的技术报告。

蒸馏攻击文章主视觉


什么是"蒸馏攻击"

先解释一个概念。

Model Distillation(模型蒸馏) 是一种合法的机器学习技术:用一个大模型的输出来训练一个小模型。所有前沿 AI 公司都用这个方法来做自己模型的"平民版" — 比如 Anthropic 用 Opus 的输出来帮助训练 Haiku。

但如果竞争对手用这个方法,那就是另一回事了。

想象一下:你花了数十亿美元、几年时间训练出一个模型。你的竞争对手不需要这些投入 — 他们只需要大量调用你的 API,把你模型的输出当训练数据,就能让自己的模型"学会"你的能力。成本?几百万美元的 API 调用费。时间?几周。

这就是蒸馏攻击 — 用对话的方式偷走智能。


三场攻击,三种风格

Anthropic 在报告中详细拆解了三家实验室的攻击手法。

DeepSeek:15 万次对话,精准提取推理能力

规模最小,但手法最精巧。

DeepSeek 的攻击集中在推理能力上 — 他们用精心设计的 prompt 让 Claude 一步一步展示自己的思考过程(chain-of-thought),然后把这些推理链当作训练数据。

更有意思的是另一个目标:审查安全的替代方案。DeepSeek 向 Claude 提问关于异见人士和威权主义的敏感话题,试图获取"不会触发审查"的回答方式 — 然后用这些回答来训练自己的模型绕过内容审查。

手法特征:同步流量、协调账号、共享支付方式。很工业化,不像个人行为。

Moonshot AI(月之暗面):340 万次对话,全面提取

规模中等,但覆盖面最广。

Moonshot 的目标几乎涵盖了 Claude 的所有核心能力:agentic reasoning(agent 推理)、tool use(工具使用)、coding(编码)、数据分析、computer use(桌面操作)、计算机视觉。

后期他们从"广撒网"转向了精确提取 Claude 的推理轨迹 — 不只是要答案,而是要 Claude 的"思维过程"。

Anthropic 给出了最直接的归因证据:请求 metadata 匹配到了 Moonshot 高级员工的公开资料。

MiniMax:1300 万次对话,被抓了个现行

规模最大,占总量的 80% 以上。

MiniMax 的攻击主要针对 agentic coding 和工具编排。但这个案例最特别的地方是:Anthropic 在攻击进行中就发现了它。

这提供了一个罕见的视角 — 从数据生成到模型发布的完整生命周期。当 Anthropic 发布新模型时,MiniMax 在 24 小时内就把将近一半的流量切换到了新模型上。这个反应速度说明他们有自动化的流水线在持续运行。


"九头蛇"基础设施

这些攻击不是直接用 IP 连 API 这么简单。三家实验室都使用了商业代理服务,Anthropic 称之为 "hydra cluster"(九头蛇集群) 架构:

  • 一个代理网络同时管理 20000 个以上的假账号
  • 蒸馏请求和正常客户流量混在一起,增加检测难度
  • 流量分散在 API 和各云平台之间

这不是几个研究员的个人行为。这是有组织、有基础设施、有工业流程的系统性作业。


Anthropic 怎么发现的

报告透露了几种检测方法:

  1. 行为分类器和指纹识别 — 蒸馏攻击有明显的流量特征:大量集中在狭窄的能力区域、高度重复的 prompt 结构、内容直接映射到 AI 训练价值
  2. 情报共享 — 与其他 AI 实验室、云服务商和相关机构共享技术指标
  3. 访问控制强化 — 增强对教育账号、安全研究项目、初创企业等常被利用路径的身份验证
  4. 模型层面的对抗措施 — 在不影响正常用户体验的前提下,降低蒸馏请求获得的输出质量

第 4 点最有意思:Anthropic 可以让模型对蒸馏攻击"装傻",而正常用户完全感知不到。 这是一种非常精巧的防御方式。


时机:同一周的第四个大事件

把这篇放在 Anthropic 的"超级周"里看:

日期事件
2/23蒸馏攻击报告 ← 你在这里
2/24RSP v3.0:重写安全政策
2/25收购 Vercept
2/26对五角大楼说"不"

四天,四个大动作。蒸馏攻击报告排在最前面 — 在芯片出口管制辩论正在进行的时候发布。这个时机很难说是巧合。

Anthropic 的逻辑链条很清晰:中国实验室在偷我们的技术 → 出口管制是有必要的 → 我们在国家安全上是站在正确一边的 → 但我们也有自己不会越过的红线。

不管你是否认同这个叙事框架,它是一套完整的战略叙事,不是随机的新闻发布。


对中国 AI 行业意味着什么

这个话题需要冷静分析,不适合情绪化。

事实层面:蒸馏本身是灰色地带。OpenAI、Google 的 Terms of Service 都禁止用输出训练竞品模型,但这在技术上很难完全阻止。Anthropic 能做到这种级别的归因和检测,本身就是一个技术成就。

战略层面:这份报告最大的影响不在于"揭露"了什么 — 业内很多人早就知道蒸馏在发生。它的影响在于把蒸馏从技术问题变成了国家安全问题。一旦被定义为国家安全威胁,政策工具箱就完全不同了 — 出口管制、实体清单、制裁,都可以上桌。

技术层面:如果蒸馏防御做得足够好(比如 Anthropic 提到的"对蒸馏请求降低输出质量"),蒸馏的效率会大幅下降。这对依赖蒸馏路径的团队是一个警告:这条路的窗口正在关闭。


一句话带走

1600 万次对话、24000 个假账号 — 这是 AI 时代的新型间谍活动。蒸馏攻击证明了一件事:前沿 AI 的能力太值钱了,值得为它搭建工业级的盗取基础设施。

你怎么看?蒸馏是"合理借鉴"还是"知识产权盗窃"?技术上的灰色地带是否应该由政治来定义?评论区聊聊。


关注本号,第一时间解读 Anthropic 最新动态。