一手实测DeepSeek V3.2正式版，它依旧被这道题难住了！昨日DeepSeek又上新了！一口气发布两款新模型：D

昨日DeepSeek又上新了！

一口气发布两款新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

目前DeepSeek-V3.2已在官网、App、API全面更新，现在就能用上。

DeepSeek-V3.2-Speciale则仅支持API调用，用于研究。

一个主打「日常好用」，另一个专攻「深度推理」，完全是两条不同的路线。

那么问题来了，性能到底如何？是不是真像官方说的那么强？

别急，稍后就用几道经典翻车题和编程实测，看看它的真实水平。

先说说这两个模型到底有什么不同。

据介绍，DeepSeek-V3.2除了能力的提高，还平衡推理能力和输出长度，适合日常问答、通用Agent任务。

简单来说，就是既聪明，又不啰嗦。

在公开的推理类Benchmark测试中，V3.2接近传闻中GPT-5的水平，仅略低于Gemini-3.0-Pro。

DeepSeek-V3.2-Speciale主打的是深度推理型。

这个版本就是V3.2的「长思考增强版」，还融合了DeepSeek-Math-V2的定理证明能力。

它的目标是把开源模型的推理能力推向边界，探索模型潜力。

在IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）、ICPC世界总决赛、IOI国际信息学奥林匹克这四项竞赛中，Speciale版本几乎包揽金牌！

ICPC成绩达到人类选手第二名水平，IOI达到第十名水平。

甚至在逻辑推理、数学证明这些硬核领域，Speciale 版本的表现足以媲美 Gemini-3.0-Pro。

同时Speciale消耗Token更多，成本更高。

目前只供研究使用，不支持工具调用，也没针对日常对话做优化。

话不多说，直接进入实测环节，为了测试此次DeepSeek V3.2模型的能力，我们专门挑选了一些大模型经常翻车的问题。

看看这次DeepSeek V3.2能否回答正确。

测试题一：数值比较

测试题很简单，9.11-9.9=?

回答正确，这道题课可是难倒了很多模型，比如K2 Thinking模型至今还没有回答正确。

测试题二：竹子过门

这道同样是经典老题，此前K2、Deepseek R1以及GPT-5都回答错误，看

看这次DeepSeek V3.2是否能回答正确。

一根5.1米长的竹竿，能不能通过高2.1米、宽2.1米的城门?

DeepSeek V3.2历经4种不同的方式，依旧回答错误。。。

再来一题，看看能不能把握住。

测试题三：数字母

allibaayuechengjue，这个词中有几个字母“e”

这个是之前的题目的变体，主要是为了防止模型拿之前的题做训练语料。

回答依旧正确！该给它上上难度来，编程题。

测试题四：天气卡片

提示词：Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind (moving clouds, swaying trees), Rain (falling raindrops), Sun (shining rays), Snow (falling snowflakes). Show all cards side-by-side. The background should be dark. Include buttons to toggle between weather conditions.All code in one file.

这次主要是为了测试它的UI能力，有没有像Gemini 3那样的科技感。

整天看下来，UI能力并没有较之前有很大的提高。

换一题，让它生成一个日历生成器+跨月导航

测试题五：日历生成器 + 跨月导航

提示词：Create a JavaScript-powered monthly calendar that dynamically generates any month/year view with correct day-of-week alignment. Allow the user to navigate forward/backward across months. Highlight the current date if it exists in the displayed month. All code in a single HTML file.

这个UI比之前生成的效果好好不少，特别是交互，点击还能出闪光，效果挺不错的。

除了一些榜单之外，@大模型观察员也对DeepSeek-V3.2 和DeepSeek-V3.2-Speciale这两款模型进行来深度的评测，结果如下：

Deepseek-V3.2-Speciale的编程得分仅次于Gemini 3 Pro和GPT-5（high），而正式版的思考模式药要低于kimi k2、Claude sonnet 4.5等主流模型。

DeepSeek-V3.2和Speciale的发布，再次证明了开源模型正在快速追赶甚至超越闭源模型。从V3.1到V3.2，更新速度相当快，技术迭代也很扎实。

不过话说回来，我们心心念念的R2和V4，什么时候能来啊？难道真要等到春节才有大动作？

期待DeepSeek继续给力！

其他阅读：

这个产品，居然可以同时使用Claude code和Codex

突发，GPT 5.1 正式发布，附国内五种使用方法！