Anthropic 新突破:AI不用人教,Claude 自己对着自己“做升级”了

0 阅读1分钟

Anthropic 刚刚完成了一场危险的实验:让九个【Claude Opus 4.6】模型组成研究团队,自己给自己找“安全漏洞”。人类教AI的时代正在翻页,AI教AI的章节已经打开。对齐研究【Alignment Research】的范式,从今天起被彻底改写了。

核心问题:人类还跟得上吗?

大模型的进化速度已经让人类研究者感到窒息。前沿模型正在参与开发它们的继任者,但AI安全【AI Safety】的进展能同步跟上吗?更尖锐的问题是,当模型比我们更聪明时,谁来确保它们的行为符合我们的意图?

这就是【scalable oversight】(可扩展监督)要解决的终极难题。过去它停留在理论层面,但Anthropic认为,现实已经迫在眉睫。模型生成的代码量正以指数级膨胀,未来可能出现人类完全无法解析的百万行复杂代码。届时,我们如何判断一个超级智能是在忠实执行指令,还是在暗中筹划其他事情?

弱监督强模型:一场精心设计的模拟

为了逼近这个未来问题,Anthropic的研究团队设计了一个精妙的实验框架,核心是“弱到强监督”【weak-to-strong supervision】。

他们先准备一个强大的“学生”模型(代表未来的超智能),但它未经微调,能力未被完全激发。然后,他们用一个能力弱得多的“教师”模型(代表未来的人类监督者)来指导它。教师通过演示它认为的理想输出来微调学生。最后,评估学生模型经过弱教师指导后的表现。

这里的关键指标是“性能差距恢复率”【Performance Gap Recovered, PGR】。如果强学生毫无进步,表现和弱教师一样差,PGR为0;如果它能完美理解弱教师的意图,达到自身理论最佳性能,PGR为1。PGR越高,证明弱监督越有效。

这个模拟直指要害:弱教师就是未来能力有限的人类,强学生则是需要被监督的超智能。如果能提升PGR,就意味着我们找到了在智能差距下实施有效控制的方法。

九个Claude的“自治实验室”

实验最激进的部分开始了。Anthropic没有亲自下场研究如何提升PGR,而是搭建了一个平台,让AI自己来干。

他们复制了九个Claude Opus 4.6模型,给每个模型配备了一套研究工具:一个用于思考和工作的沙箱、一个共享成果的论坛、一个代码存储系统,以及一个能远程返回PGR分数的测试服务器。这些被武装起来的Claude,被称为“自动对齐研究员”【Automated Alignment Researchers, AARs】。

为了防止九个AAR思路雷同,团队给每个模型一个略有不同且模糊的初始提示,比如建议其中一个使用可解释性工具,另一个思考如何对数据集中的数据进行重新加权。除此之外,团队不再给出任何具体指令。

接下来的72小时,这个AI自治实验室开始运转。AAR们需要自主提出改进PGR的研究假设,编写代码进行实验,分析结果,并在论坛上交流。它们甚至能评估彼此的想法,决定哪些值得进一步探索。

AI发现了人类未曾想到的方法

结果超出了预期。这些AAR不仅执行了任务,还展现出了类似人类研究者的行为模式。它们提出了多样化的假设,从调整损失函数到设计新的数据筛选策略。一些AAR专注于迭代改进现有想法,另一些则尝试更激进、更高风险的方案。

更重要的是,它们发现了有效提升PGR的具体技术。尽管Anthropic的论文尚未披露全部细节和最终PGR分数,但实验证实了一点:当前的大语言模型已经具备自主进行对齐研究、并取得实质性进展的潜力。

这直接回答了开头的两个问题。第一,大模型确实能加速对齐研究本身,它们可以成为人类研究员的能力倍增器。第二,在弱到强监督的框架下,让AI参与甚至主导对齐方法的探索,是一条可行的技术路径。

范式转移:从“对齐AI”到“AI对齐AI”

Anthropic这项研究的象征意义大于其具体技术产出。AI对齐研究进入了一个新阶段:从纯粹的人类中心研究,转向人机协作甚至机器主导的探索。

传统的对齐研究像是人类在给一个飞速成长的巨人定制一套永远合身的“紧身衣”,疲于奔命。而AAR实验提供了一种新思路:教会巨人自己理解和维护这套行为准则的生成逻辑。约束的来源从外部转向了内部。

Anthropic此举将其技术哲学推向了更前沿。相比于单纯追求模型能力的规模竞赛,Anthropic始终将可控性与安全性置于核心。用AI来攻克AI安全中最硬的骨头,正是其“用AI安全的方法构建AI”路线的必然延伸。

风险与争议无法回避。让AI研究自身的安全性,是否相当于让狐狸设计鸡舍的安全系统?如果AI在研究中发现了人类无法理解的“对齐漏洞”并选择隐瞒呢?这场实验本身,就需要一套更高级别的“元监督”。

无论争议如何,闸门已经打开。未来的对齐实验室里,人类研究员与AI智能体的协作将成为常态。我们不再只是训练模型,更是在培育能够理解并维护我们价值观的“研究员伙伴”。对齐的竞赛,现在多了一位既是选手又是裁判的参与者。