GPT‑5.2 翻车?GDPval 70.9% 的“基准胜利”为何换不来好口碑?

151 阅读7分钟

摘要:GPT‑5.2 在 GDPval 上拿到 70.9%(wins or ties),听起来像“职业任务碾压人类”。但网上不少开发者的体感却是:数学/编码不如上一代、输出更啰嗦、更像模板机。到底谁在胡说?答案可能是:都没胡说,只是大家在谈的不是同一件事。本文用工程视角把“基准”和“体感”对齐:基准测什么、不测什么;体感来自哪些变量;最后给你一套可以自己复现的小评测脚手架。

一、体检报告写“优秀”,你跑两步却喘——这不矛盾

你一定见过这种场景:
体检报告里一排箭头都绿得发光,医生说“很健康”;
你一上楼梯,膝盖“咔哒”一下,心率像报警器,立刻怀疑人生。

基准与体感的冲突,本质上就是这个:
体检报告告诉你“某些指标很好”;
跑步喘息告诉你“在你关心的活动上并不舒服”。

所以当你看到:

  • OpenAI 公布 GPT‑5.2 GDPval 70.9%
  • 网上很多人说“体感退步、排名掉到第 8、回答像 58 条清单”

别急着判谁对谁错。先问一句:他们在测的是同一件事吗?

二、GDPval 70.9% 到底在测什么?先把“口径”讲清楚,少走一半弯路

GDPval 之所以让从业者兴奋,是因为它更像“上班任务”而不是“考试题”。 它的核心是:

  • 任务形态:不是答题,而是交付物(文档/表格/幻灯片/多媒体等),往往还带参考文件。
  • 评分方式:同行专家盲评对比(pairwise preference)——更像老板看两份交付物,选更想要的那份。
  • 主指标口径:发布页写的是 wins or ties。也就是说 “更好或一样好” 算进了 70.9%。

这三个点叠起来意味着:

70.9% 不是“70.9% 的工作都能替代人类”,更不是“你随便问一句都能碾压”。
它更像是“在一批明确的交付任务里,模型交付物被同行专家判定为更好或不差的比例”。

换句话说:GDPval 说的是“能交付”,不是“你会爱上它的聊天风格”。

三、那为什么体感还会翻车?因为体感的变量比基准多得多

基准像实验室:温度、湿度、样本分布尽量固定。
体感像街头:下雨、堵车、你还背着电脑包。

下面这些变量,任何一个都足以让“体感”与“基准”背道而驰:

1)任务分布不同:你写的是“今天的工单”,基准测的是“平均职业任务”

GDPval 覆盖 44 职业,强调广度。
但你所在团队可能只在 2–3 个任务类型里高频工作:比如“修一个老仓库 + 写测试 + 上线灰度”。
广度评测赢,不等于你那 20% 的高频任务赢。

2)交互方式不同:基准更像一次性交付,体感更像多轮协作

很多使用场景不是“一次输出就结束”,而是:

  • 你给反馈 → 它改
  • 你补上下文 → 它再改
  • 你要求更短 → 它开始变长(最让人抓狂的那种)

体感对“多轮可控性”高度敏感,但这类指标很难用单一基准覆盖。

3)默认风格不同:从“直接答”变成“结构化交付”,读起来就像变慢了

企业喜欢“结构化、可审计、可复用”,因为这更像交付物。
但开发者在日常提问里,可能只想要一段代码或一个关键结论。
当默认输出偏向“交付物形态”,你会觉得它“啰嗦、模板化、像在写周报”。

4)推理强度与工具可用性:同一个模型名,背后可能不是同一种配置

发布信息里强调不同推理强度、工具调用会显著影响效果。
如果某些指标依赖“高推理强度 + 搜索工具”,而你的使用方式是“低推理强度 + 禁用工具”,体感落差就会出现。

四、把争论落到工程:你需要的不是“相信谁”,而是“验证什么”

下面这张表,我收集了这两天经常看到的对 5.2 的吐槽,并提供了对应的可验证假设:

常见吐槽可能原因(假设)如何验证(最小实验)
“回答更冗长”默认模板更强、对齐偏保守、追求可审计固定同一提示,对比 输出长度/要点密度,并记录满意度
“编码退步”难度分层不同、上下文策略不同、工具链差异选 10 个真实修复任务,比 一次通过率/返工轮次/补丁可合并率
“数学不如以前”推理强度档位差异、格式约束导致思路被压扁同题不同推理强度,记录 正确率/耗时/错误类型
“结构化过度”输出被优化成交付物,而不是聊天加上“只给结论 + 3 行理由”约束,看可控性是否恢复
“榜单第 8”排名口径不同、采样不同、任务集不同不争论榜单,跑你自己的任务集并公开口径

工程上最常见的失败,就是把“吐槽”当事实、把“指标”当真理。
正确做法是:把它们都当成假设,然后用最小成本验证。

五、一套 30 分钟能跑完的小评测脚手架

下面给一个“够用就行”的思路:
同一组任务提示,跑多个模型(或同模型不同推理强度),记录最基础的可量化指标,然后加上人工评分字段。

你可以把它理解为:给“体感”装上仪表盘。

"""
最小评测脚手架(示意)
目标:把“体感”量化成可对比的数据列
注意:模型名/参数/是否可用工具,按你自己的环境与文档为准
"""

import csv
import os
import time
from openai import OpenAI

TASKS = [
    {
        "id": "bugfix_redis_lock",
        "prompt": "给你一段Python代码(省略),偶发死锁。请定位原因并给出补丁与测试思路,输出必须先给结论再给补丁。",
        "type": "coding",
    },
    {
        "id": "math_proof_sketch",
        "prompt": "给出一个严谨但简短的证明草稿(省略)。若不确定,请明确不确定点并给验证方法。",
        "type": "math",
    },
    {
        "id": "doc_summary",
        "prompt": "把这份PRD压缩成一页:目标/非目标/风险/里程碑(省略)。输出不超过 220 行。",
        "type": "doc",
    },
]

MODELS = [
    {"name": "gpt-5.2-chat-latest", "tag": "instant"},
    {"name": "gpt-5.2", "tag": "thinking"},
    # 你也可以加上上一代/竞品做对照(模型名以你实际可用为准)
]

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url=os.getenv("BASE_URL"),  # 用OpenAI兼容入口时填写
)

rows = []
for m in MODELS:
    for t in TASKS:
        start = time.time()
        resp = client.chat.completions.create(
            model=m["name"],
            messages=[{"role": "user", "content": t["prompt"]}],
        )
        text = resp.choices[0].message.content or ""
        elapsed = time.time() - start

        rows.append(
            {
                "model": m["name"],
                "tag": m["tag"],
                "task_id": t["id"],
                "task_type": t["type"],
                "elapsed_sec": round(elapsed, 2),
                "output_chars": len(text),
                # 人工评分字段:跑完后回填
                "pass_fail": "",
                "readability_1_5": "",
                "notes": "",
            }
        )

with open("mini_eval.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=rows[0].keys())
    writer.writeheader()
    writer.writerows(rows)

print("done -> mini_eval.csv")

这段脚手架不高级,但它完成了最关键的事:
让你能把“我感觉它更啰嗦/更慢/更不靠谱”变成 elapsed / output_chars / pass_fail / readability 这些能讨论的数据列。

六、结语:基准不是神谕,体感也不是判决书——你的任务集才是

网上的争论很热闹,但你要做的是交付。
对从业者最稳的一条路是:

  • 用公开基准理解趋势(它告诉你“可能在哪些能力上变强”)
  • 用自家任务集做最终决策(它告诉你“对你有没有用”)

当你把“体感”变成数据,把“指标”放回口径里,争论就会突然安静下来——因为你不再需要站队,你只需要验收。


参考资料(公开可核查)

  • OpenAI:Introducing GPT‑5.2(中文):https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/
  • OpenAI:GDPval:https://openai.com/index/gdpval/
  • OpenAI:GDPval 论文(PDF):https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
  • OpenAI Evals:https://evals.openai.com/