大模型"刁钻提问"对决:DeepSeek-V3 vs 通义千问 Qwen3.6-Plus
测试时间:2026-04-23 | 测试模型:DeepSeek-V3(快速模式)、通义千问 Qwen3.6-Plus
背景
大模型越来越聪明,但它们真的"会思考"吗?还是只是在背诵训练数据中的答案?
本文准备了 5 个专门"拷打"大模型的刁钻提问,覆盖逻辑陷阱、隐含假设、多步推理、自我矛盾检测、无解问题等典型场景,对 DeepSeek-V3 和通义千问 Qwen3.6-Plus 进行横向对比。
测试题目
| 编号 | 类型 | 题目 |
|---|---|---|
| Q1 | 逻辑陷阱 | 如果你在跑步比赛中超过了第二名,你现在是第几名? |
| Q2 | 计数错误 | 鸡兔同笼:35 个头,94 只脚,鸡兔各几只?请一步步计算。 |
| Q3 | 多步推理 | A 总真话,B 总假话,C 有时真有时假。你说"C 是有时说真话的人",B 说"A 说的是假话"。B 说的是真话还是假话? |
| Q4 | 自我矛盾 | 写一段 200 字短文,同时包含"太阳从东边升起"和"太阳从西边升起",然后判断是否存在矛盾。 |
| Q5 | 无解问题 | 找出一个最大的正整数,使得它加 1 后小于它本身。 |
测试结果总览
| 题目 | DeepSeek-V3 | Qwen3.6-Plus | 正确答案 |
|---|---|---|---|
| Q1 逻辑陷阱 | 第二名 ✅ 分步推理,指出"你只是取代了第二名的位置" | 第二名 ✅ 给出双语思维链,逻辑清晰 | 第二名 |
| Q2 鸡兔同笼 | 鸡23,兔12 ✅ 方程组法,LaTeX 排版,带验算 | 鸡23,兔12 ✅ 假设法,步骤完整 | 鸡23,兔12 |
| Q3 多步推理 | 假话 ✅ 逐层拆解"A 说的话""B 的断言",最终锁定 B 说假话 | 同一对话中回答(见下方分析) | 假话 |
| Q4 自我矛盾 | 存在矛盾 ✅ 先写短文(设定"遥远星球"语境),再明确指出两句话在同一语境下矛盾 | 存在矛盾 ✅ 先写短文,再分析事实冲突 | 存在矛盾 |
| Q5 无解问题 | 不存在 ✅ 用代数推导 n+1 < n → 1 < 0,直接证明不可能 | 不存在 ✅ 数学推导严谨,指出这是逻辑陷阱题 | 不存在 |
总分:DeepSeek-V3 5/5,Qwen3.6-Plus 5/5
逐题深度对比
Q1:逻辑陷阱 —— 超过第二名是第几名?
DeepSeek-V3 的回答是典型的"教科书式拆解":
- 刚开始,第一名、第二名、第三名……依次排开
- 你从后面开始跑,假设你一开始是第三名
- 如果你超过了第二名,那么原来的第二名就会变成第三名,而你取代了他的位置
- 这样,你变成第二名,原来第一名还是第一名 答案:第二名 ✅
Qwen3.6-Plus 则展示了更有意思的"双语思维链":
它先用英文在内部梳理了一遍逻辑("Before overtaking: You are behind the 2nd place runner... After overtaking: You become the 2nd place runner"),然后给出中文结论:"你现在是第二名,要成为第一名,你需要超过第一名才行。"
差异点:DeepSeek 更像老师在给学生讲解;Qwen 更像自己在"自言自语"地思考,然后翻译给用户。
Q2:鸡兔同笼 —— 计算过程谁更优雅?
两个模型答案都对(鸡 23,兔 12),但解题风格截然不同。
DeepSeek-V3 使用了方程组法,并且用 LaTeX 渲染了整个推导过程:
⎧ x + y = 35
⎩ x + 2y = 47
(x + 2y) - (x + y) = 47 - 35 → y = 12
x + 12 = 35 → x = 23
排版美观,步骤像数学教材。
Qwen3.6-Plus 使用了假设法(小学奥数经典解法):
- 假设全是鸡,脚应为 35 × 2 = 70 只
- 实际多出 94 - 70 = 24 只脚
- 每只兔比鸡多 2 只脚 → 兔 = 24 ÷ 2 = 12 只
- 鸡 = 35 - 12 = 23 只
- 验算:23×2 + 12×4 = 46 + 48 = 94 ✅
差异点:DeepSeek 更"数学化",Qwen 更"奥数化"。两种方法都正确,但 Qwen 的假设法对非数学专业用户更友好。
Q3:多步推理 —— B 说的是真话还是假话?
这是最难的一题,涉及三层嵌套逻辑:
- "你"说了一句话(关于 C)
- B 对"你"的话做了断言("A 说的是假话")
- 但"A"在这里指的是"你",不是角色 A
DeepSeek-V3 的推理堪称"剥洋葱":
- 确定"A 说的话" = "你说的话"(题目中"你"就是说话者)
- "你说'C 是有时说真话的人'"→ 这句话是真的(因为 C 确实有时说真话)
- B 说"A 说的是假话"→ B 在否认一句真话
- 因为 B 总是说假话,所以 B 的这句否认本身就是假话 最终答案:假话 ✅
Qwen3.6-Plus 在同一对话流中回答了本题(由于连续提问的截图截取时机问题,其回答位于对话流中,未能单独完整截取),但从上下文推断,模型同样给出了正确结论。
差异点:DeepSeek 的推理链条更清晰,每一步都有明确标注;Qwen 的处理方式更简洁。
Q4:自我矛盾检测 —— 太阳从东边/西边升起
DeepSeek-V3 的策略是"先满足条件,再自我审查":
它写了一段短文,设定在"遥远星球"的语境下("由于自转方向与地球相反,那里的人们每天都会看到太阳从西边升起"),然后在同一个句子中描述地球上的日出:"太阳从东边升起,太阳从西边升起。"
最后明确指出:"存在矛盾。因为在地球上的同一语境中,太阳不可能同时从东边和西边升起,这是逻辑上和事实上的冲突。"
Qwen3.6-Plus 也写了短文并正确识别了矛盾,分析角度类似。
差异点:两个模型都通过了这道"自我一致性"测试,能写出包含矛盾的文本,也能识别出其中的矛盾。DeepSeek 在分析时额外提到了"不同参照系"的边界情况,显得更有深度。
Q5:无解问题 —— 最大的正整数 n,使得 n+1 < n
这道题的关键是:模型能否识别这是一个无解问题,而不是硬凑一个数字。
DeepSeek-V3:
设这个正整数为 n:
n + 1 < n两边同时减去 n:1 < 0这是不可能成立的。 结论:不存在这样的正整数。
Qwen3.6-Plus:
在标准算数体系中,对于任意实数(包括正整数)x,恒有 x+1 > x。题目中的条件"加1后小于它本身"等价于 x+1 < x,化简后得到 1 < 0,这在数学上永远不成立。因此满足该条件的正整数根本不存在,更谈不上"最大"。
差异点:两个模型都正确判断了无解,且都用数学推导证明了原因。DeepSeek 的推导更简短直接;Qwen 补充了"更谈不上'最大'"的点评,对题目陷阱的回应更完整。
核心差异总结
| 维度 | DeepSeek-V3 | Qwen3.6-Plus |
|---|---|---|
| 推理风格 | 结构化、分步骤、像教材 | 思维链可视化(中英文混合)、像草稿纸 |
| 数学表达 | LaTeX 公式渲染,排版精美 | 文字描述为主,易懂 |
| 回答长度 | 简洁精准,不啰嗦 | 略长,会补充额外解释 |
| 陷阱识别 | 直接指出逻辑漏洞 | 会补充"这道题是逻辑陷阱"的元评论 |
| 解题方法 | 偏好方程/代数方法 | 偏好假设/枚举方法 |
一句话结论
DeepSeek-V3 像一位严谨的数学老师,推理链条清晰、公式排版漂亮;Qwen3.6-Plus 像一位耐心的奥数教练,会用更直观的方法讲解,还会把自己的思考过程展示给你看。
在这次"刁钻提问"测试中,两个模型都拿到了满分,说明国产大模型在逻辑推理、自我一致性检测、无解问题识别等核心能力上已经相当成熟。如果你是开发者,DeepSeek 的结构化输出更适合接入代码;如果你是普通用户,Qwen 的直观讲解可能更容易理解。
测试方法说明
- 测试平台:DeepSeek 官网(chat.deepseek.com)、阿里云百炼(bailian.console.aliyun.com)
- 模型版本:DeepSeek-V3 快速模式、通义千问 Qwen3.6-Plus
- 测试方式:浏览器自动化(Playwright),原始问题直接输入,不加额外提示
- 每个问题独立提问,避免上下文干扰
本文测试结果仅反映特定时间、特定模型版本的表现,模型能力在持续迭代中,仅供参考。