OpenAI十周年放大招!GPT-5.2直接拿满分,这次真狠了

68 阅读10分钟

在这里插入图片描述

操作指南

操作指导

AI平台 国内直接访问地址:sass.xiaoxuzhu.cn/ 点击【新系统登录】在这里插入图片描述注册后登录即可。选择GPT-5.2大模型

在各种小道消息、各种预测满天飞之后,

终于——就在 OpenAI 十周年的这一天,尘埃落定了。 🎉

就在今天凌晨 2 点,GPT-5.2 终于亮相了!等这波更新等了好久,没想到是半夜悄悄上线的。

Gemini 3 Pro 这波真是火到不行,首次让 OpenAI 感受到了“领先优势不保”的压力。奥特曼甚至在内部敲响了红色警戒。然后——OpenAI 立刻给出了他们的反击:
**GPT-5.2。**这不光是回击,也是 OpenAI 十周年给出的“纪念款”。
而这代模型的定位也很有意思。OpenAI 的原话是:

“We are introducing GPT-5.2, the most capable model series yet for professional knowledge work.”
——GPT-5.2 是目前在“专业知识工作”场景表现最强的系列。

注意关键词:专业知识工作
后面会考,先记住。从各种 benchmark(跑分)来看,其实没有出现那种“代差式碾压”的表现。
有点像数码厂商开始挤牙膏式升级的味道了……🤏😅

对比了 GPT-5.2、GPT-5.1、Claude Opus 4.5 和 Gemini 3 Pro 之后发现:
在软件工程(SWE-Bench Pro)、科学问题(GPQA Diamond)、数学竞赛(AIME 2025)这些传统硬核评测里,GPT-5.2 又往前卷了一步,把第一的位置重新拿了回来,整体实力全面压住了对手。而且不仅是算力强,GPT-5.2 在前端设计审美和 3D 相关能力上也更猛了,效果更自然、更灵动,确实有点牛逼。

GPT 在视觉理解这块也变强了。
现在你让模型去找图里的组件、给它们贴标签、画大概的边界框,它都能更稳地完成。就算是糊一点的图,GPT-5.2 也能看出主要区域,给的框基本都贴着真实位置;而 GPT-5.1 就有点跟不上了,只标了几块地方,空间位置关系也抓得不太准。

说真的,这些提升吧……听起来都挺猛,但用户基本没啥真实体感。
就像芯片厂商跟你说:我们家手机芯片又快了 25%。你听完会觉得“嗯不错哦”,但并不妨碍你继续刷抖音、小红书,对吧。
但这次有两个评测,我觉得是 GPT-5.2 最值得单独拎出来说的点。

一个叫 ARC-AGI-2,另一个叫 GDPval。这俩,真的很有意思。

先聊聊 ARC-AGI-2。以前的 AI 测试,比如 MMLU,主要就是考知识点。
问题类型大概就是:“美国第一任总统是谁?”、“光合作用的化学方程式是什么?” 这种。说句实话,对一个读过半个互联网的大模型来说,这种考试有点像开卷——它很可能不是推理出来的,而是直接从记忆里抄答案。
于是就出现一个尴尬的问题:我们根本分不清 AI 到底是真的“聪明”,还是只是“记性好”。为了解决这个,François Chollet(就是 Keras 的作者)在 2019 年的论文《On the Measure of Intelligence》里搞出了一个变态级的测试:ARC。这个测试完全不靠知识储备。
全名叫 Abstraction and Reasoning Corpus(抽象与推理语料库),目标就是测 AI 的通用推理能力。核心理念很简单:
不是看你是不是做过类似题,而是看你面对完全没见过的新题时,能不能自己发现规律、举一反三。现在正式发展到第二代,也就是 ARC-AGI-2。
我给大家放几道里面的典型题,你看一眼就能懂它有多刁钻了。

大家常说的这种能力,现在有个专业名词——流体智力(Fluid Intelligence)
简单讲,就是不靠你已经知道的东西,而是在全新的场景里现场推理、找规律、解决问题的那种“悟性”。说白了,就是你会不会当场开窍。而对 AI 来讲,这几乎是最难的一关。
因为它没法上网搜答案,也没法靠记忆糊弄过去,必须当下真的“想明白”。过去很长一段时间里,顶级模型在这类测试里的成绩都惨不忍睹。
比如 ARC-AGI-2 这个专门测“类人推理”的测试:

  • GPT-5.1 的分数只有 17.6%

  • 新版 GPT-5.2 直接干到 52.9%

整整飙了三倍!这成绩有多吓人?
可以说 GPT-5.2 上来就把排行榜给
屠了

而且,效率还很高。

基本上,这一批模型都在同一个成本区间里拼,能做到的能力已经拉满了。
而在真实的“智力水平”这块,GPT-5.2 可以说是真正达到了目前的天花板。这事就变得有点意思了。接着说第二点——也是我现在最在意、而且认为最关键的指标:GDPval。可能很多人都没听过这个评测集。
它是 OpenAI 在两个半月前刚推出的一个新标准。

光看这个名字,其实就能猜到点意思。GDP-val,就是你熟悉的那个 GDP(国内生产总值)里的 GDP。
他们想用一套全新的标准,来衡量 AI 在真实世界、真正能创造经济价值的任务上到底表现如何。以前我们评价一个模型厉害不厉害,更多是看它代码写得好不好、知识回答准不准、考试能不能拿高分。
这些当然都重要,但现实世界从来不是只有程序员和科学家。律师、设计师、市场、护士、建筑师、销售……
成千上万的专业知识工作者,他们的价值根本不是一张试卷能测出来的。所以 OpenAI 这次干脆反向来:
从美国 GDP 贡献最高的 9 个行业里挑了 44 个核心职业,再找来这些行业里平均 14 年经验的资深专家,让他们基于真实工作成果,出了一套 1320 道专业任务。一句话:
这次测 AI,不再让它写卷子,而是让它干“真的活”。

想象一下,给律师布置的活儿,不是写几句评语,而是一份货真价实的合同草案 + 客户需求,让他来审阅、修改。
给市场经理的任务,是一堆产品资料、市场调研数据,让他从零写一份营销方案 PPT。
给制造工程师的挑战,则是一张产品设计图,让他想办法优化整个生产流程。这些可都不是“答个选择题”这么简单,它们包含文字、PDF、Excel、图片、PPT……各种格式混在一起,复杂到爆,而且压根没有标准答案,就是那种真实世界里会让专业人士头疼的任务。按人类专家的水平来算,整套任务平均要干 7 个小时,有些甚至是一两周才能搞定。然后,模型和人类都交出作品,由另一批同领域的专家 盲审。评委完全不知道谁是 AI、谁是人类,他们只需要回答一个问题:👉 **“如果这份是要交给客户的,你更愿意选哪份?”**结果非常炸裂:

  • GPT-5.2 Thinking 在这套 GDPval 评测里,有 70.9% 的任务做到 赢或持平行业专家

  • GPT-5.2 Pro 更夸张,达到了 74.1%

注意,这里对标的可不是刚毕业的实习生,而是真正有 十几年经验的老法师级行业专家。换句话说,在一个资深采购经理、审计师面前,GPT-5.2 做出来的成果,有 七成概率比专家更好,或者至少不差。对比一下之前的 GPT-5:
它在同样的任务里只有 38.8%。——差距直接拉开两倍多,属于跨时代的跃升。

这进步速度确实有点快。
对比一下官方放出来的案例就能看得很清楚,效果挺直观的。

过去的模型,往往把太多精力放在编程和开发能力上。不是说这些不重要——它们当然重要,也真的很强。
但我一直觉得,其他领域的能力也应该被同样重视。而在众多指标里,GDPval 是我心目中最关键的那个。这次的 GPT-5.2,在上下文处理上又是一次大升级。
我们用之前的“大海捞针”测试:在一个 256K 的巨型文档里藏四根针,让模型仅凭文档回答问题。
效果明显比过去更强,找信息的能力可以说是质的飞跃。

GPT-5.2 这次是真的离谱——正确率直接冲到 100%,我印象里它应该是唯一能干到满分的模型了。
虽然在 8 根针的场景下准确度会掉一点,但这个衰减幅度……已经把 GPT-5.1 甩出去好几条街了。简直就是性能进化的教科书式升级 💥🚀

而且,还有最新的知识库截止日期:

兄弟们,这波真的牛。
更狠的知识处理能力 + 更新的知识库截止日期 + 更聪明的智力水平 + 超高的上下文准确度。一句话:这才是真正给打工人开挂的“天选牛马搭子”。
它不是做样子、不是摆拍,是真的奔着“好用”“实用”“人人都能上手”去的。
现在节奏是:
今天先开放给 ChatGPT 的付费用户
明天起轮到免费用户
🔥 而且它会上位直接替代 GPT-5.1但,如果你是付费会员,老模型还会再陪你 3 个月缓冲期
简单说:
**这是一次真的“大换代”。**就这,稳了。🚀🔥

一些号称“GPT-5.2 专用”的文件精修套路,现在看看也只能先按下不表,等真正拿到实测体验后,再来给大家整一篇GPT-5.2 打工合集,到时候再好好盘一盘哪些是真能提升效率,哪些只是营销话术。
至于开发者这边,API 已经开放,想折腾的朋友现在就能开干了。🚀

价格上,会比5.1贵一些。

总体来说,GPT-5.2 到目前为止就这些消息了,挺多但也就那样。
不过我自己一直最期待的——成人模式
到现在还是没影子。
奥特曼这龟儿子不是说好 12 月上线 吗?

结果现在……嗯,你们懂的。 😮‍💨

也不确定还能不能等到。

不过他说了,下周还会再送一些小小的圣诞礼物。

盲猜一下,OpenAI 八成憋着个生图模型,或者干脆来个“成人模式”。
对创作者来说,这俩真的都是刚需中的刚需……整体看下来,GPT-5.2 在我心里算是一次挺实在的升级
它不像很多模型那样一味追求 benchmark 刷分,而是明显把重点放在“怎么帮打工人把事情做到位”上。
这种走向,我觉得挺酷,也很务实。
但路线层面上说,GPT-5.2 好像还是被原生多模态的 Gemini 3 Pro 压着一头。

照这个节奏,OpenAI 12 月大概率得补一发生图模型出来,不知道会不会对标 Banana,再给点新花样。总之,就是继续期待吧。✨

感受

好用的功能太多太多,我就不在这个一一列举了,有兴趣的可以自行尝试。

有提供免费的授权码可体验~

有提供免费的授权码可体验~

有提供免费的授权码可体验~

私信虚竹哥,获取体验码~ 国内可直接使用~

在这里插入图片描述

我是虚竹哥,目标是带十万人玩转AI。