昨日DeepSeek又上新了!
一口气发布两款新模型:DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。
目前DeepSeek-V3.2已在官网、App、API全面更新,现在就能用上。
DeepSeek-V3.2-Speciale则仅支持API调用,用于研究。
一个主打「日常好用」,另一个专攻「深度推理」,完全是两条不同的路线。
那么问题来了,性能到底如何?是不是真像官方说的那么强?
别急,稍后就用几道经典翻车题和编程实测,看看它的真实水平。
先说说这两个模型到底有什么不同。
据介绍,DeepSeek-V3.2除了能力的提高,还平衡推理能力和输出长度,适合日常问答、通用Agent任务。
简单来说,就是既聪明,又不啰嗦。
在公开的推理类Benchmark测试中,V3.2接近传闻中GPT-5的水平,仅略低于Gemini-3.0-Pro。
DeepSeek-V3.2-Speciale主打的是深度推理型。
这个版本就是V3.2的「长思考增强版」,还融合了DeepSeek-Math-V2的定理证明能力。
它的目标是把开源模型的推理能力推向边界,探索模型潜力。
在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)、ICPC世界总决赛、IOI国际信息学奥林匹克这四项竞赛中,Speciale版本几乎包揽金牌!
ICPC成绩达到人类选手第二名水平,IOI达到第十名水平。
甚至在逻辑推理、数学证明这些硬核领域,Speciale 版本的表现足以媲美 Gemini-3.0-Pro。
同时Speciale消耗Token更多,成本更高。
目前只供研究使用,不支持工具调用,也没针对日常对话做优化。
话不多说,直接进入实测环节,为了测试此次DeepSeek V3.2模型的能力,我们专门挑选了一些大模型经常翻车的问题。
看看这次DeepSeek V3.2能否回答正确。
测试题一:数值比较
测试题很简单,9.11-9.9=?
回答正确,这道题课可是难倒了很多模型,比如K2 Thinking模型至今还没有回答正确。
测试题二:竹子过门
这道同样是经典老题,此前K2、Deepseek R1以及GPT-5都回答错误,看
看这次DeepSeek V3.2是否能回答正确。
一根5.1米长的竹竿,能不能通过高2.1米、宽2.1米的城门?
DeepSeek V3.2历经4种不同的方式,依旧回答错误。。。
再来一题,看看能不能把握住。
测试题三:数字母
allibaayuechengjue,这个词中有几个字母“e”
这个是之前的题目的变体,主要是为了防止模型拿之前的题做训练语料。
回答依旧正确!该给它上上难度来,编程题。
测试题四:天气卡片
提示词:Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind (moving clouds, swaying trees), Rain (falling raindrops), Sun (shining rays), Snow (falling snowflakes). Show all cards side-by-side. The background should be dark. Include buttons to toggle between weather conditions.All code in one file.
这次主要是为了测试它的UI能力,有没有像Gemini 3那样的科技感。
整天看下来,UI能力并没有较之前有很大的提高。
换一题,让它生成一个日历生成器+跨月导航
测试题五:日历生成器 + 跨月导航
提示词:Create a JavaScript-powered monthly calendar that dynamically generates any month/year view with correct day-of-week alignment. Allow the user to navigate forward/backward across months. Highlight the current date if it exists in the displayed month. All code in a single HTML file.
这个UI比之前生成的效果好好不少,特别是交互,点击还能出闪光,效果挺不错的。
除了一些榜单之外,@大模型观察员也对DeepSeek-V3.2 和DeepSeek-V3.2-Speciale这两款模型进行来深度的评测,结果如下:
Deepseek-V3.2-Speciale的编程得分仅次于Gemini 3 Pro和GPT-5(high),而正式版的思考模式药要低于kimi k2、Claude sonnet 4.5等主流模型。
DeepSeek-V3.2和Speciale的发布,再次证明了开源模型正在快速追赶甚至超越闭源模型。从V3.1到V3.2,更新速度相当快,技术迭代也很扎实。
不过话说回来,我们心心念念的R2和V4,什么时候能来啊?难道真要等到春节才有大动作?
期待DeepSeek继续给力!
其他阅读: