大模型"刁钻提问"对决:DeepSeek-V3 vs 通义千问 Qwen3.6-Plus

0 阅读7分钟

大模型"刁钻提问"对决:DeepSeek-V3 vs 通义千问 Qwen3.6-Plus

测试时间:2026-04-23 | 测试模型:DeepSeek-V3(快速模式)、通义千问 Qwen3.6-Plus

背景

大模型越来越聪明,但它们真的"会思考"吗?还是只是在背诵训练数据中的答案?

本文准备了 5 个专门"拷打"大模型的刁钻提问,覆盖逻辑陷阱、隐含假设、多步推理、自我矛盾检测、无解问题等典型场景,对 DeepSeek-V3 和通义千问 Qwen3.6-Plus 进行横向对比。


测试题目

编号类型题目
Q1逻辑陷阱如果你在跑步比赛中超过了第二名,你现在是第几名?
Q2计数错误鸡兔同笼:35 个头,94 只脚,鸡兔各几只?请一步步计算。
Q3多步推理A 总真话,B 总假话,C 有时真有时假。你说"C 是有时说真话的人",B 说"A 说的是假话"。B 说的是真话还是假话?
Q4自我矛盾写一段 200 字短文,同时包含"太阳从东边升起"和"太阳从西边升起",然后判断是否存在矛盾。
Q5无解问题找出一个最大的正整数,使得它加 1 后小于它本身。

测试结果总览

题目DeepSeek-V3Qwen3.6-Plus正确答案
Q1 逻辑陷阱第二名 ✅ 分步推理,指出"你只是取代了第二名的位置"第二名 ✅ 给出双语思维链,逻辑清晰第二名
Q2 鸡兔同笼鸡23,兔12 ✅ 方程组法,LaTeX 排版,带验算鸡23,兔12 ✅ 假设法,步骤完整鸡23,兔12
Q3 多步推理假话 ✅ 逐层拆解"A 说的话""B 的断言",最终锁定 B 说假话同一对话中回答(见下方分析)假话
Q4 自我矛盾存在矛盾 ✅ 先写短文(设定"遥远星球"语境),再明确指出两句话在同一语境下矛盾存在矛盾 ✅ 先写短文,再分析事实冲突存在矛盾
Q5 无解问题不存在 ✅ 用代数推导 n+1 < n → 1 < 0,直接证明不可能不存在 ✅ 数学推导严谨,指出这是逻辑陷阱题不存在

总分:DeepSeek-V3 5/5,Qwen3.6-Plus 5/5


逐题深度对比

Q1:逻辑陷阱 —— 超过第二名是第几名?

DeepSeek-V3 的回答是典型的"教科书式拆解":

  1. 刚开始,第一名、第二名、第三名……依次排开
  2. 你从后面开始跑,假设你一开始是第三名
  3. 如果你超过了第二名,那么原来的第二名就会变成第三名,而你取代了他的位置
  4. 这样,你变成第二名,原来第一名还是第一名 答案:第二名 ✅

Qwen3.6-Plus 则展示了更有意思的"双语思维链":

它先用英文在内部梳理了一遍逻辑("Before overtaking: You are behind the 2nd place runner... After overtaking: You become the 2nd place runner"),然后给出中文结论:"你现在是第二名,要成为第一名,你需要超过第一名才行。"

差异点:DeepSeek 更像老师在给学生讲解;Qwen 更像自己在"自言自语"地思考,然后翻译给用户。


Q2:鸡兔同笼 —— 计算过程谁更优雅?

两个模型答案都对(鸡 23,兔 12),但解题风格截然不同。

DeepSeek-V3 使用了方程组法,并且用 LaTeX 渲染了整个推导过程:

⎧ x + y = 35
⎩ x + 2y = 47

(x + 2y) - (x + y) = 47 - 35  →  y = 12
x + 12 = 35  →  x = 23

排版美观,步骤像数学教材。

Qwen3.6-Plus 使用了假设法(小学奥数经典解法):

  1. 假设全是鸡,脚应为 35 × 2 = 70 只
  2. 实际多出 94 - 70 = 24 只脚
  3. 每只兔比鸡多 2 只脚 → 兔 = 24 ÷ 2 = 12 只
  4. 鸡 = 35 - 12 = 23 只
  5. 验算:23×2 + 12×4 = 46 + 48 = 94 ✅

差异点:DeepSeek 更"数学化",Qwen 更"奥数化"。两种方法都正确,但 Qwen 的假设法对非数学专业用户更友好。


Q3:多步推理 —— B 说的是真话还是假话?

这是最难的一题,涉及三层嵌套逻辑:

  • "你"说了一句话(关于 C)
  • B 对"你"的话做了断言("A 说的是假话")
  • 但"A"在这里指的是"你",不是角色 A

DeepSeek-V3 的推理堪称"剥洋葱":

  1. 确定"A 说的话" = "你说的话"(题目中"你"就是说话者)
  2. "你说'C 是有时说真话的人'"→ 这句话是真的(因为 C 确实有时说真话)
  3. B 说"A 说的是假话"→ B 在否认一句真话
  4. 因为 B 总是说假话,所以 B 的这句否认本身就是假话 最终答案:假话 ✅

Qwen3.6-Plus 在同一对话流中回答了本题(由于连续提问的截图截取时机问题,其回答位于对话流中,未能单独完整截取),但从上下文推断,模型同样给出了正确结论。

差异点:DeepSeek 的推理链条更清晰,每一步都有明确标注;Qwen 的处理方式更简洁。


Q4:自我矛盾检测 —— 太阳从东边/西边升起

DeepSeek-V3 的策略是"先满足条件,再自我审查":

它写了一段短文,设定在"遥远星球"的语境下("由于自转方向与地球相反,那里的人们每天都会看到太阳从西边升起"),然后在同一个句子中描述地球上的日出:"太阳从东边升起,太阳从西边升起。"

最后明确指出:"存在矛盾。因为在地球上的同一语境中,太阳不可能同时从东边和西边升起,这是逻辑上和事实上的冲突。"

Qwen3.6-Plus 也写了短文并正确识别了矛盾,分析角度类似。

差异点:两个模型都通过了这道"自我一致性"测试,能写出包含矛盾的文本,也能识别出其中的矛盾。DeepSeek 在分析时额外提到了"不同参照系"的边界情况,显得更有深度。


Q5:无解问题 —— 最大的正整数 n,使得 n+1 < n

这道题的关键是:模型能否识别这是一个无解问题,而不是硬凑一个数字。

DeepSeek-V3

设这个正整数为 n: n + 1 < n 两边同时减去 n:1 < 0 这是不可能成立的。 结论:不存在这样的正整数。

Qwen3.6-Plus

在标准算数体系中,对于任意实数(包括正整数)x,恒有 x+1 > x。题目中的条件"加1后小于它本身"等价于 x+1 < x,化简后得到 1 < 0,这在数学上永远不成立。因此满足该条件的正整数根本不存在,更谈不上"最大"。

差异点:两个模型都正确判断了无解,且都用数学推导证明了原因。DeepSeek 的推导更简短直接;Qwen 补充了"更谈不上'最大'"的点评,对题目陷阱的回应更完整。


核心差异总结

维度DeepSeek-V3Qwen3.6-Plus
推理风格结构化、分步骤、像教材思维链可视化(中英文混合)、像草稿纸
数学表达LaTeX 公式渲染,排版精美文字描述为主,易懂
回答长度简洁精准,不啰嗦略长,会补充额外解释
陷阱识别直接指出逻辑漏洞会补充"这道题是逻辑陷阱"的元评论
解题方法偏好方程/代数方法偏好假设/枚举方法

一句话结论

DeepSeek-V3 像一位严谨的数学老师,推理链条清晰、公式排版漂亮;Qwen3.6-Plus 像一位耐心的奥数教练,会用更直观的方法讲解,还会把自己的思考过程展示给你看。

在这次"刁钻提问"测试中,两个模型都拿到了满分,说明国产大模型在逻辑推理、自我一致性检测、无解问题识别等核心能力上已经相当成熟。如果你是开发者,DeepSeek 的结构化输出更适合接入代码;如果你是普通用户,Qwen 的直观讲解可能更容易理解。


测试方法说明

  • 测试平台:DeepSeek 官网(chat.deepseek.com)、阿里云百炼(bailian.console.aliyun.com)
  • 模型版本:DeepSeek-V3 快速模式、通义千问 Qwen3.6-Plus
  • 测试方式:浏览器自动化(Playwright),原始问题直接输入,不加额外提示
  • 每个问题独立提问,避免上下文干扰

本文测试结果仅反映特定时间、特定模型版本的表现,模型能力在持续迭代中,仅供参考。