阿里发布开源推理模型 QwQ-32B,支持消费级显卡本地部署,有哪些技术亮点?
更新于:2025-03-24 11:41:46

Qwen终于发力了。

从基准测试上来看,32B的QwQ-32B效果明显优于DeepSeek-R1-Distilled-Qwen-32B和DeepSeek-R1-Distilled-Llama-70B,可以接近DeepSeek-R1和o1-mini的水平。这里的基准测试包括数学推理,编程竞赛,通用能力,指令遵循以及函数调用等各个方面。特别地,QwQ-32B也整合了agent能力,使其能够在使用工具和根据环境反馈调整推理的过程中进行批判性思考。

32B的模型(DeepSeek R1的激活参数是37B,QwQ是dense模型,所以两者推理激活参数差不多)能达到这个效果,我称之为逆天了,而且32B模型经过量化后,可以直接跑在本地消费级显卡上,这意味本地就可以部署了性能比坚o-mini的推理模型。有个大胆的猜想,对于推理模型,其核心是依赖test-time compute time scaling law,是不是小模型增加推理时间,或者说思考时间,是不是就足够达到很强的推理能力了。也许,o1-mini和o3-mimi的参数量也很小。。

在训练方法上,QwQ-32B包含三个阶段,先是一个冷启动,这里猜测类似DeepSeek-R1-Zero和Kimi k1.5一样先用少量带思维链的数据微调模型Qwen2.5-32B。然后是进行面向数学和编程任务的强化学习,这里的强化学习方法也是采用基于结果的奖励,而且奖励模型也是基于规则,具体来说,对于数学问题采用一个准确性验证器来确保最终解决方案的正确性,对于编程问题采用代码执行服务器来评估生成的代码是否成功通过预定义的测试用例。这个阶段的强化学习主要是提升模型在数学和编程这两个强推理任务上的性能。最后是一个通用能力的强化学习,这个阶段应该除了推理任务,还增加了其它通用任务,此时奖励函数除了基于规则的验证器还包含通用奖励模型。这个阶段的强化学习训练只需少量的步骤,就能提升其他通用能力的表现,例如指令遵循、与人类偏好的对齐以及代理性能,但是在数学和编程方面没有显著的性能下降。

训练方法上和DeepSeek-R1有点区别,QwQ-32B更像是在DeepSeek-R1-Zero之后增加了一个通用的强化学习。而DeepSeek-R1只包含SFT和强化学习两个阶段,SFT阶段用DeepSeek-R1-Zero合成的推理任务数据并混入高质量的通用任务数据来微调DeepSeek V3 Base,而后面的强化学习阶段也是包含推理和通用两个方面。

最后放一些实测的效果:

初步看,效果还不错,有点期待后面更大的模型Qwen2.5-Max-QwQ了。(Qwen2.5-Plus是32B的Qwen2.5?)

当然,也期待DeepSeek R2以及R2-Lite。