六月预计又是一拨密集模型发布。Opus 4.8 五月底刚出,MiniMax 的 M3 这两天也放了出来,GPT 5.6 据说在路上,DeepSeek 下一版也有人在等。预计间隔几天就会冒一个新模型,挺热闹。
但这两天我一直在琢磨的,是一个朋友用模型的经历。
他一开始拿模型做点小东西,写写网页、做点小工具小插件。上手那阵子特别兴奋,跟我说现在的模型太神了,随手挑了个国产的不错的模型,就觉得够用得不得了,甚至有点想不出来模型还能往哪儿强,已经这么好使了。
后来他的活越做越复杂。从小工具走到想做个自动剪辑的东西,做视频裁剪那一类。问题就来了。
模型跟说他搞定了。他说行,一试,不行。过会儿又说这回真搞定了,再一试,还是不行。来回好几轮。他自己也拿不准了:一方面觉得是自己跟模型协作的功夫在长进,得多给指导、换着法儿让它试;另一方面又开始怀疑,是不是模型本身不行,要不要干脆换个 Claude Opus这种模型试试。
这个过程特别典型。它背后藏着一件很多人还没反应过来的事:模型的强弱,正在沿不同方向分叉。单看一个分数,已经说不清了。
分数挤在天花板,体感却越拉越开
先看现在的怪现状:主流那些 benchmark,顶尖模型的分高得吓人,彼此还挤在很窄的一段里。
举个例子。GPQA 是一套博士级难度的题,难到什么程度?请来的博士专家自己做,正确率也就六成五上下。可现在顶尖模型在上面普遍刷到九成二到九成四,挤成一团。MMLU 那种更老的,大家早就普遍超过九成。难题不再难,分数顶到天花板,模型跟模型之间就拉不开了。
这事逼得做评测的人只能不停造更难的题。Humanity's Last Exam 这套新评测,官方说得很直白:就是因为模型在 MMLU 这些上已经超过九成、旧题不够用了,才另起炉灶。也有研究把六十个主流评测过了一遍,结论是其中近一半已经高度饱和,顶尖模型在上面「统计意义上已经无法区分」。
可你真拿来用,体感差异大得离谱。我上一篇刚写过,Opus 4.8 在我手上的工程和研究任务上怎么连着让我失望,这些活后来全转给了 GPT 5.5。要只看分数,这俩贴得很近;手上一过,天壤之别。
ARC-AGI 这套就很典型。旧的那一代,顶尖模型已经刷到九成六、饱和了。换成更难的 ARC-AGI-2,同一批模型立刻原形毕露:GPT 5.5 还能有八成五,Opus 4.8 直接掉到七成出头。再换成要它真去交互、去探索的 ARC-AGI-3,几乎全员归零。
所以 benchmark 还是有用的,只是「做人能定义、能判对错的题」这件事本身,越来越难把模型区分开了。为什么会这样,得往训练里看一眼。
会解最难的题,和能可靠办成一件糙活
现在让模型变强的主力打法,叫「可验证奖励」。说白了就是,挑那些有标准答案、机器能自动判对错的难题,拿来做强化学习。数学、代码最典型,答对给分,答错给零,反复练。
DeepSeek-R1 的论文写得很清楚:数学题用规则去验,代码直接丢进编译器跑测试用例。他们还特意说明,没用那种神经网络打分的奖励模型,因为那玩意儿容易被模型钻空子。OpenAI 的 o 系列也是这个路子。这套打法非常有效,模型解难题的本事就是这么练上去的。
但它有个特点:它擅长的,是把「人能定义出来、又能判对错的最难问题」往死里解。这跟另一种能力是两码事:给你一个模糊的、没那么难但很现实的活,一次就可靠地办成。
我朋友那个剪辑工具,就是后一种。任务不算极难,但意图是模糊的,得自己拆解,还得一把办利索。一个能解奥数题的模型,未必能干净利落地把这种糙活一次办成。它可能绕来绕去,要跟你对齐三遍,最后还来一句「我搞定了」,其实没搞定。反过来,一个很会办糙活的模型,你丢给它一道极难的题,它也可能当场歇菜。
这是两个方向的能力,各走各的,没法摆在一条直线上比高低。
麻烦在于,九成的人日常要的是后者——把一个说不太清楚的活,可靠、省心地办成。可我们给模型排名用的那个分数,量的几乎全是前者。「分数最高」和「我用着最顺手」对不上,太正常了。
还有一维,叫探索
前面那两种,好歹都还在「有标准答案」的世界里:要么解一道能判分的难题,要么办一件能验收的活。真正难的是第三种。
我朋友卡住的时候,我想到的是另一类问题。就像开车到一个路口,前面红绿灯,你是直行,还是从中间绕过去。没有标准答案,得在模糊里自己找方向。探索一片人们还没定义清楚、甚至根本不知道答案的领域,是另一种能力。
这种能力,benchmark 根本测不了。评测的前提就是有标准答案、能判对错;可探索这件事根本没有对错可言,只有效率高低:能不能在一片模糊里捞到点新东西,再拿它往前走,拱出一个原来没有的边界。
它也恰恰是「可验证奖励」那套打法的盲区。已经有研究指出,开放式的、没有唯一答案的任务,因为压根没有一个明确的标准答案,连奖励都没法构造,这套方法使不上劲。甚至有人发现,这种练法非但不一定让模型长出新本事,反而可能把它的探索面收窄,能力上限被底座模型死死卡住。
结果就是,一个很会探索的模型,你把它扔进标准答案清清楚楚的笼子里,它可能显得有点傻;一个刷题刷得飞起的模型,可能压根不具备探索的能力。我自己的体感,GPT 和 Claude 在这件事上有最明显的区别。
而这一维,偏偏最要紧。因为真正有价值的事,一开始往往都没有标准答案。可它最难测,也最难练。
这事,聊天时代已经演过一遍
模型能力沿着维度分叉、再往下分层,不是头一回。聊天机器人那阵子,完整演过一遍。
那会儿大家一度也觉得,最大的模型就是最强的。但很快发现,单论聊天,最大的模型并没好到哪去。LMSYS 那个模型对战榜,2023年就专门写过一节,叫「小模型很能打」:一个 13B 的 Vicuna 排进了前五,Elo 分甚至压过谷歌的 PaLM 2;7B 的也能挤进前十,跟参数翻一倍的模型打得有来有回。后来也陆陆续续有研究是这个意思,把模型从几千万参数一路堆到千亿、再堆到 GPT-4 这一档,在一些偏软的任务上,提升很快就见顶,几十亿参数的小模型跟前沿模型差不太多。
翻译过来就是:聊天、陪聊这种事,规模的边际收益很低。几十 B 就够了,往上堆到千亿,纯属浪费。
于是市场自己就分了家。要情绪价值、要陪你聊两句,一个不大但会说人话的模型就够;真要做严肃的 research、做硬核的工程,才轮得到顶级模型上场。模型按用途,分出了不同的性价比档位。
今天这一轮,是同样的剧情,在更高的能力层级上重演。
写在最后:别问哪个最强,先问你要哪一维
绕回我朋友的纠结——「要不要换个更强的模型」。其实他问错了问题。
没有哪个「更强」,能同时把解难题、办糙活、搞探索全包圆。这三件事,正在分到不同的模型身上去。
新一代模型当然还在拼命往前走。但它们辛苦争来的那点进步,越来越多落在「人能定义、能判分的最难问题」上,而这恰恰是大多数人感知不到的地方。于是你会看到一种割裂:榜单上一代更比一代强,可大多数人只觉得「早就够用了,看不出来哪儿更强」。两边都没说错。因为他们要的,根本不是同一维的能力。
所以别再笼统地问「哪个模型最强」。先问清楚,你要它干哪一维的活:解一道有答案的难题,办一件没说清的糙活,还是陪你去趟一件根本没人知道答案的事。
「最强」这个词,正在变成一个没有标准答案的问题。
参考资料
模型发布与时间线
- Claude Opus 4.8 发布(2026-05-28)— Anthropic
- MiniMax M3 发布报道(2026-06-01)— MarkTechPost
- OpenAI GPT-5.5(当前官方版本,GPT-5.6 尚未发布)
- DeepSeek V4(2026-04-24 预览)— API Docs
benchmark 饱和
- GPQA: A Graduate-Level Google-Proof Q&A Benchmark(博士专家基线约 65%)— arXiv 2311.12022
- Humanity's Last Exam(造更难评测的官方动机:模型已在 MMLU 等超过 90%)
- 大模型评测饱和研究:60 个评测近半高度饱和、顶尖模型统计上无法区分 — arXiv 2602.16763
- ARC-AGI 官方榜单(ARC-AGI-1 饱和、ARC-AGI-2 同批模型骤降)— ARC Prize
- ARC-AGI-2 设计说明 — ARC Prize
可验证奖励,和它的边界
- Tülu 3:RLVR(可验证奖励强化学习)的提出与定义 — arXiv 2411.15124
- DeepSeek-R1:用规则化奖励、编译器跑测试用例,刻意不用神经奖励模型(怕 reward hacking)— arXiv 2501.12948
- OpenAI o1:大规模强化学习训练推理能力 — OpenAI
- Writing-Zero:开放式、主观任务缺乏明确 ground truth,奖励难以构造 — arXiv 2506.00103
- 开放式生成「没有明确标准答案」导致 RLVR 难以延伸 — arXiv 2601.18533
- 这类强化学习可能收窄探索面、能力上限受限于底座模型 — arXiv 2504.13837
聊天时代的小模型
- LMSYS Chatbot Arena 榜单(2023-05,「Smaller Models Are Competitive」:13B Vicuna 进前五、Elo 压过 PaLM 2)
- PNAS:模型规模对单条说服力的边际收益递减、很快触顶 — pnas.org