1600 万次对话,24000 个假账号:Anthropic 指控中国 AI 实验室"偷"了 Claude
如果你能用对话的方式"复制"一个 AI 的能力,你会怎么做?
DeepSeek、Moonshot AI(月之暗面)和 MiniMax 给出了答案:注册 24000 个假账号,和 Claude 对话 1600 万次,然后用这些对话数据来训练自己的模型。
Anthropic 在 2 月 23 日发了一篇技术博客,详细记录了这三场攻击的规模、手法和归因证据。这不是含糊的指控 — 是带着 metadata、流量模式和时间线对比的技术报告。
什么是"蒸馏攻击"
先解释一个概念。
Model Distillation(模型蒸馏) 是一种合法的机器学习技术:用一个大模型的输出来训练一个小模型。所有前沿 AI 公司都用这个方法来做自己模型的"平民版" — 比如 Anthropic 用 Opus 的输出来帮助训练 Haiku。
但如果竞争对手用这个方法,那就是另一回事了。
想象一下:你花了数十亿美元、几年时间训练出一个模型。你的竞争对手不需要这些投入 — 他们只需要大量调用你的 API,把你模型的输出当训练数据,就能让自己的模型"学会"你的能力。成本?几百万美元的 API 调用费。时间?几周。
这就是蒸馏攻击 — 用对话的方式偷走智能。
三场攻击,三种风格
Anthropic 在报告中详细拆解了三家实验室的攻击手法。
DeepSeek:15 万次对话,精准提取推理能力
规模最小,但手法最精巧。
DeepSeek 的攻击集中在推理能力上 — 他们用精心设计的 prompt 让 Claude 一步一步展示自己的思考过程(chain-of-thought),然后把这些推理链当作训练数据。
更有意思的是另一个目标:审查安全的替代方案。DeepSeek 向 Claude 提问关于异见人士和威权主义的敏感话题,试图获取"不会触发审查"的回答方式 — 然后用这些回答来训练自己的模型绕过内容审查。
手法特征:同步流量、协调账号、共享支付方式。很工业化,不像个人行为。
Moonshot AI(月之暗面):340 万次对话,全面提取
规模中等,但覆盖面最广。
Moonshot 的目标几乎涵盖了 Claude 的所有核心能力:agentic reasoning(agent 推理)、tool use(工具使用)、coding(编码)、数据分析、computer use(桌面操作)、计算机视觉。
后期他们从"广撒网"转向了精确提取 Claude 的推理轨迹 — 不只是要答案,而是要 Claude 的"思维过程"。
Anthropic 给出了最直接的归因证据:请求 metadata 匹配到了 Moonshot 高级员工的公开资料。
MiniMax:1300 万次对话,被抓了个现行
规模最大,占总量的 80% 以上。
MiniMax 的攻击主要针对 agentic coding 和工具编排。但这个案例最特别的地方是:Anthropic 在攻击进行中就发现了它。
这提供了一个罕见的视角 — 从数据生成到模型发布的完整生命周期。当 Anthropic 发布新模型时,MiniMax 在 24 小时内就把将近一半的流量切换到了新模型上。这个反应速度说明他们有自动化的流水线在持续运行。
"九头蛇"基础设施
这些攻击不是直接用 IP 连 API 这么简单。三家实验室都使用了商业代理服务,Anthropic 称之为 "hydra cluster"(九头蛇集群) 架构:
- 一个代理网络同时管理 20000 个以上的假账号
- 蒸馏请求和正常客户流量混在一起,增加检测难度
- 流量分散在 API 和各云平台之间
这不是几个研究员的个人行为。这是有组织、有基础设施、有工业流程的系统性作业。
Anthropic 怎么发现的
报告透露了几种检测方法:
- 行为分类器和指纹识别 — 蒸馏攻击有明显的流量特征:大量集中在狭窄的能力区域、高度重复的 prompt 结构、内容直接映射到 AI 训练价值
- 情报共享 — 与其他 AI 实验室、云服务商和相关机构共享技术指标
- 访问控制强化 — 增强对教育账号、安全研究项目、初创企业等常被利用路径的身份验证
- 模型层面的对抗措施 — 在不影响正常用户体验的前提下,降低蒸馏请求获得的输出质量
第 4 点最有意思:Anthropic 可以让模型对蒸馏攻击"装傻",而正常用户完全感知不到。 这是一种非常精巧的防御方式。
时机:同一周的第四个大事件
把这篇放在 Anthropic 的"超级周"里看:
| 日期 | 事件 |
|---|---|
| 2/23 | 蒸馏攻击报告 ← 你在这里 |
| 2/24 | RSP v3.0:重写安全政策 |
| 2/25 | 收购 Vercept |
| 2/26 | 对五角大楼说"不" |
四天,四个大动作。蒸馏攻击报告排在最前面 — 在芯片出口管制辩论正在进行的时候发布。这个时机很难说是巧合。
Anthropic 的逻辑链条很清晰:中国实验室在偷我们的技术 → 出口管制是有必要的 → 我们在国家安全上是站在正确一边的 → 但我们也有自己不会越过的红线。
不管你是否认同这个叙事框架,它是一套完整的战略叙事,不是随机的新闻发布。
对中国 AI 行业意味着什么
这个话题需要冷静分析,不适合情绪化。
事实层面:蒸馏本身是灰色地带。OpenAI、Google 的 Terms of Service 都禁止用输出训练竞品模型,但这在技术上很难完全阻止。Anthropic 能做到这种级别的归因和检测,本身就是一个技术成就。
战略层面:这份报告最大的影响不在于"揭露"了什么 — 业内很多人早就知道蒸馏在发生。它的影响在于把蒸馏从技术问题变成了国家安全问题。一旦被定义为国家安全威胁,政策工具箱就完全不同了 — 出口管制、实体清单、制裁,都可以上桌。
技术层面:如果蒸馏防御做得足够好(比如 Anthropic 提到的"对蒸馏请求降低输出质量"),蒸馏的效率会大幅下降。这对依赖蒸馏路径的团队是一个警告:这条路的窗口正在关闭。
一句话带走
1600 万次对话、24000 个假账号 — 这是 AI 时代的新型间谍活动。蒸馏攻击证明了一件事:前沿 AI 的能力太值钱了,值得为它搭建工业级的盗取基础设施。
你怎么看?蒸馏是"合理借鉴"还是"知识产权盗窃"?技术上的灰色地带是否应该由政治来定义?评论区聊聊。
关注本号,第一时间解读 Anthropic 最新动态。