一手实测DeepSeek V3.2正式版,它依旧被这道题难住了!

136 阅读4分钟

昨日DeepSeek又上新了!

一口气发布两款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

目前DeepSeek-V3.2已在官网、App、API全面更新,现在就能用上。

DeepSeek-V3.2-Speciale则仅支持API调用,用于研究。

一个主打「日常好用」,另一个专攻「深度推理」,完全是两条不同的路线。

那么问题来了,性能到底如何?是不是真像官方说的那么强?

别急,稍后就用几道经典翻车题和编程实测,看看它的真实水平。

先说说这两个模型到底有什么不同。

据介绍,DeepSeek-V3.2除了能力的提高,还平衡推理能力和输出长度,适合日常问答、通用Agent任务。

简单来说,就是既聪明,又不啰嗦。

在公开的推理类Benchmark测试中,V3.2接近传闻中GPT-5的水平,仅略低于Gemini-3.0-Pro。

DeepSeek-V3.2-Speciale主打的是深度推理型。

这个版本就是V3.2的「长思考增强版」,还融合了DeepSeek-Math-V2的定理证明能力。

它的目标是把开源模型的推理能力推向边界,探索模型潜力。

在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC世界总决赛、IOI国际信息学奥林匹克这四项竞赛中,Speciale版本几乎包揽金牌!

ICPC成绩达到人类选手第二名水平,IOI达到第十名水平。

甚至在逻辑推理、数学证明这些硬核领域,Speciale 版本的表现足以媲美 Gemini-3.0-Pro。

同时Speciale消耗Token更多,成本更高。

目前只供研究使用,不支持工具调用,也没针对日常对话做优化。

话不多说,直接进入实测环节,为了测试此次DeepSeek V3.2模型的能力,我们专门挑选了一些大模型经常翻车的问题。

看看这次DeepSeek V3.2能否回答正确。

测试题一:数值比较

测试题很简单,9.11-9.9=?

回答正确,这道题课可是难倒了很多模型,比如K2 Thinking模型至今还没有回答正确。

测试题二:竹子过门

这道同样是经典老题,此前K2、Deepseek R1以及GPT-5都回答错误,看

看这次DeepSeek V3.2是否能回答正确。

一根5.1米长的竹竿,能不能通过高2.1米、宽2.1米的城门?

DeepSeek V3.2历经4种不同的方式,依旧回答错误。。。

再来一题,看看能不能把握住。

测试题三:数字母

allibaayuechengjue,这个词中有几个字母“e”

这个是之前的题目的变体,主要是为了防止模型拿之前的题做训练语料。

回答依旧正确!该给它上上难度来,编程题。

测试题四:天气卡片

提示词:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind (moving clouds, swaying trees), Rain (falling raindrops), Sun (shining rays), Snow (falling snowflakes). Show all cards side-by-side. The background should be dark. Include buttons to toggle between weather conditions.All code in one file.

这次主要是为了测试它的UI能力,有没有像Gemini 3那样的科技感。

整天看下来,UI能力并没有较之前有很大的提高。

换一题,让它生成一个日历生成器+跨月导航

测试题五:日历生成器 + 跨月导航

提示词:Create a JavaScript-powered monthly calendar that dynamically generates any month/year view with correct day-of-week alignment. Allow the user to navigate forward/backward across months. Highlight the current date if it exists in the displayed month. All code in a single HTML file.

这个UI比之前生成的效果好好不少,特别是交互,点击还能出闪光,效果挺不错的。

除了一些榜单之外,@大模型观察员也对DeepSeek-V3.2 和DeepSeek-V3.2-Speciale这两款模型进行来深度的评测,结果如下:

Deepseek-V3.2-Speciale的编程得分仅次于Gemini 3 Pro和GPT-5(high),而正式版的思考模式药要低于kimi k2、Claude sonnet 4.5等主流模型。

DeepSeek-V3.2和Speciale的发布,再次证明了开源模型正在快速追赶甚至超越闭源模型。从V3.1到V3.2,更新速度相当快,技术迭代也很扎实。

不过话说回来,我们心心念念的R2和V4,什么时候能来啊?难道真要等到春节才有大动作?

期待DeepSeek继续给力!

其他阅读:

这个产品,居然可以同时使用Claude code和Codex

突发,GPT 5.1 正式发布,附国内五种使用方法!