Transformer创始人也点赞!这个斯坦福神器把Claude和GPT-5.5都比下去了

0 阅读2分钟

2026年4月,AI圈又爆出一则重磅消息——斯坦福大学、伯克利分校和英伟达联合开发的一套"验证框架"横空出世,不仅在国际权威基准测试中拿到"SOTA"(当前最优)成绩,还得到了Transformer论文作者、"Transformer之父"Lukasz Kaiser的转发关注。

这玩意儿究竟有多厉害?

简单说,这个叫"LLM-as-a-Verifier"的框架,就是一个专门用来"验真伪"的智能助手。

现在市面上很多AI代理系统,都有一个老大难问题:怎么知道AI干得好不好?传统做法是"LLM-as-a-Judge",让另一个大模型来打分,比如1到8分。但这种方法有个致命缺点——分得不够细!就像考试给满分还是100分、99分都模糊处理,最后根本比不出高低。在Terminal-Bench基准测试中,近27%的结果都是平局,根本分不出胜负。

而斯坦福这套新方法,玩的是"验证"而非"打分"。它通过把评分颗粒度从粗到细(从1个档位扩展到20个档位),重复多次验证,再把评价标准拆解成规范合规性、输出格式、错误检测等具体项目,让AI的每一个判断都有据可依。

硬指标:实打实的超越

数据不会说谎。在最具影响力的AI编程基准Terminal-Bench上,这套框架的表现直接超越了Claude Mythos和GPT-5.5——这两个都是当下最顶尖的AI模型。

更惊人的还在后面:在SWE-Bench Verified测试中同样拿下SOTA;在ForgeCode验证准确率提升到86.4%,Terminus-Kira达到79.4%,Terminus 2增加到71.2%。更厉害的是,当重复验证次数达到16次时,准确率始终保持7%以上的优势,而且彻底消除了平局现象。

谁在背后发力?

项目负责人是斯坦福计算机系博士生Jacky Kwok,主要贡献者包括伯克利EECS博士生Shulu Li。背后的学术大佬阵容也很豪华:UC伯克利教授、Databricks创始人Ion Stoica、斯坦福教授兼前DeepMind高管Azalia Mirhoseini,以及英伟达AI与自动驾驶研究总监Marco Pavone。

消息一经发布,不仅Transform原论文作者Lukasz Kaiser转发,GAN(生成对抗网络)作者徐谋也给予关注。

对普通用户意味着什么?

说白了,这套验证框架可以让AI代理系统更靠谱。以后用AI写代码、处理复杂任务时,能更快知道哪里做得对、哪里需要改,而不是等到最后才发现一堆问题。

当然,这套框架目前还在开源阶段,代码已公布在GitHub上。对于AI研究者和开发者来说,这无疑是值得关注的技术方向。