阿里QwQ-32B之初体验,能力吊打DeepSeek R1?!

268 阅读6分钟

就在刚刚(2025年3月6日),阿里云Qwen团队发布了其最新研究成果QwQ-32B推理模型,该成果通过大规模强化学习技术突破性地提升了语言模型的智能水平。

模型介绍

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比,具备思考和推理能力的 QwQ 在下游任务中,特别是在解决难题时,能够显著提高性能。QwQ-32B 是一个中等规模的推理模型,其性能可以与当前最先进的推理模型(例如 DeepSeek-R1、o1-mini)相媲美。

大规模强化学习(RL)有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。这一次,我们探讨了大规模强化学习(RL)对大语言模型的智能的提升作用,同时很高兴推出我们最新的推理模型 QwQ-32B。这是一款拥有 320 亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,我们还在推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。

基准测试

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

相关资料

QwQ-32B的相关技术解析,大家可以翻阅上述资料自行阅读。

本地部署

ollama也第一时间发布Q4_K_M的量化版本,ollama.com/library/qwq,大家配置够的话,可以本地部署体验一下,不清楚怎么本地部署的可以看看《5分钟手把手系列(一):使用Mac Book Pro本地部署大模型(Ollama+Llama3.1_8B+Docker+OpenWebUI)》

声明:本次测试仅供纯属娱乐,并不代表模型自身实际能力,测试结果仅供大家参考

效果测试

本文测试问题延续《Claude 3.7 Sonnet & DeepSeek R1& Qwen2.5-Max 不严谨测试》,以方便进行对比

1、笔者使用的测试入口:chat.qwen.ai

image.png

编程测试

经典的弹力小球编程,

题目:实现一个弹力小球游戏:

1.环境设置:创建一个旋转的六边形作为小球的活动区域。

2.物理规律:小球需要受到重力和摩擦力的影响。

3.碰撞检测:小球与六边形墙壁碰撞时,需要按照物理规律反弹。

在给出最终答案之前,请自行运行代码检查是否有语法错误后再发送正确答案(由于开始测试过程经常会出现语法错误,所以加上此句提示词)

第一次代码运行效果如下:

笔者决定在测试一次,第二次代码效果如下:

结论:首次生成的代码运行脱模了,第二次效果不错

算法测试

本次算法测试题均来自edabit.com/,有兴趣的朋友可以自行选取任意难度的算法题进行测试

本次选取的算法难度为“非常难”

算法题为edabit.com/challenge/K…

Create a function that returns all pairs of numbers in a list that sum to a target. Sort the pairs in ascending order with respect to the smaller number, then order each pair in this order: [smaller, larger].

Examples

all_pairs([2, 4, 5, 3], 7) ➞ [[2, 5], [3, 4]]
# 2 + 5 = 7, 3 + 4 = 7

all_pairs([5, 3, 9, 2, 1], 3) ➞ [[1, 2]]

all_pairs([4, 5, 1, 3, 6, 8], 9) ➞ [[1, 8], [3, 6], [4, 5]]
# Sorted: 1 < 3 < 4; each pair is ordered [smaller, larger]

Notes

  • If no pairs are found, return an empty list [].
  • You are only allowed to use each number once in a pair.
  • See Comments for a hint.

结论:一次性通过。

推理测试

问题1:

你有两个沙漏,一个是 7 分钟的沙漏,一个是 11 分钟的沙漏。如何用这两个沙漏来测量 15 分钟?

参考答案:

1.同时启动两个沙漏

2.七分钟的沙漏结束后,翻转它

3.十一分钟的沙漏结束后,翻转七分钟的沙漏;此时七分钟的沙漏已经走过四分钟,翻转它会再走四分钟而不是三分钟

4.七分钟沙漏结束后是11+4=15分钟

问题1结论:问了2次,一直推理中,无法给出结论,大家也可以通过不同入口测试进行测试,看看是否成功,目前通过其他读者反馈,grok3与o3-mini是可以推理成功的。大家有兴趣也可以试试其他模型。

由于问题1难度过高,所以问题2采取较为简单的问题再测试一次。

问题2:

有一只手表,每小时快3分钟,早上6:00的时候表的时间是准确的,当表走到下午1:00时,这时真实的时间是几点?

参考答案:12:40

问题2结论:正确✔️

总结

编程:弹力小球算法问题推理:沙漏问题推理:时间问题
QwQ-32B首次:运行脱模了❎第二次:运行效果不错✔️一次性成功✔️长时间推理,无法产生结果❎一次性回答正确✔️
Claude 3.7 Sonnet首次:成功运行,弹跳效果不错✔️一次性成功✔️有结论,但错误❎一次性回答正确✔️
DeepSeek R1首次:运行后小球脱模了❎长时间推理,无法产生结果❎长时间推理,无法产生结果❎一次性回答正确✔️

从普通用户视角来看,QwQ-32B在编程、算法的表现还是不错的,推理方面,大家都没拉开什么差距,对于推理逻辑比较绕的问题,本次测试的大模型均无法推理出正确答案。但对于过于简单的题目,大家也都均回答正确。 欢迎大家来交流使用效果