阿里AI又有新动作!最新推理模型QwQ-32B证明了小参数也能实现大模型级别的性能。
3月6日,阿里通义千问Qwen团队推出推理模型——QwQ-32B大语言模型。据官方介绍,这款仅有320亿参数的模型在性能上不仅能够媲美拥有6710亿参数的DeepSeek-R1(其中370亿被激活),更在某些测试中超越了对方。
阿里Qwen团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性,希望以此证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。
除了基础推理能力外,QwQ-32B还集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
参数精简,性能不减,成本仅1/10
根据官方披露的测试结果,QwQ-32B在多项关键评测中表现卓越:
在测试数学能力的AIME24评测集上,QwQ-32B与DeepSeek-R1表现相当,远超o1-mini及同尺寸的R1蒸馏模型
在评估代码能力的LiveCodeBench中,表现同样与DeepSeek-R1相当
在Meta首席科学家杨立昆领衔的"最难LLMs评测榜"LiveBench上,QwQ-32B得分超越DeepSeek-R1
在谷歌等提出的指令遵循能力IFEval评测集中,成绩优于DeepSeek-R1
在加州大学伯克利分校等提出的评估准确调用函数或工具的BFCL测试中,同样超越DeepSeek-R1
有海外网友展示了不同推理模型在LiveBench评分中的表现,以及它们的输出令牌成本。QwQ 32B模型的评分位于R1和o3-mini之间,但其成本仅为它们的十分之一。这表明QwQ 32B在性能和成本之间取得了很好的平衡:
- QwQ 32B的LiveBench评分约为72.5分,成本约为$0.25。
- R1的评分约为70分,成本约为$2.50。
- o3-mini的评分约为75分,成本约为$5.00。
有手快的网友已经部署使用,表示在笔记本电脑上运行速度很快,并展示了思考过程:
强化学习:QwQ-32B 的“秘密武器”
QwQ-32B的卓越性能主要归功于其采用的大规模强化学习方法。阿里团队在冷启动基础上开展了分阶段强化学习训练策略:
初始阶段:重点针对数学和编程任务进行RL训练。团队摒弃了传统的奖励模型(reward model),转而采用更直接的验证方式,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。
扩扩展阶段:增加了针对通用能力的RL训练。这一阶段使用通用奖励模型和基于规则的验证器,帮助模型在保持数学和编程能力的同时,提升其他通用能力。
研究表明,随着RL训练轮次的增加,模型在数学和编程领域的性能均呈现持续提升趋势,印证了这种方法的有效性。
QwQ-32B已开源,推动大模型从"大力出奇迹"向"精巧出智慧"的范式转变
目前,QwQ-32B已在Hugging Face和ModelScope平台开源,采用Apache 2.0开源协议。同时,用户也可以通过Qwen Chat直接体验这款强大的推理模型。
阿里Qwen团队表示,QwQ-32B只是他们在大规模强化学习增强推理能力方面的第一步。未来,他们将致力于将更强大的基础模型与依托规模化计算资源的RL相结合,并积极探索将智能体与RL集成,以实现长时推理,目标是通过推理时间扩展释放更高的智能。
随着模型参数规模的增长已经进入瓶颈期,如何在现有参数规模下进一步提升模型能力成为业界关注焦点。QwQ-32B的突破或将引领新一轮AI技术发展方向,进一步推动从"大力出奇迹"向"精巧出智慧"的范式转变。
对此,科技自媒体数字生命卡兹克感叹道:
这波QwQ-32B开源的意义,还是非常强的。
它用实力证明RLHF路线还能玩出花,打破了一些人对GPT4.5撞墙后的过度悲观。
用中等规模却拿到高级性能,给开源界注入了强大信心,你也不必搞那种天价设备和超大规模,也有机会跟国际巨头同场竞技。
QwQ-32B的发布与阿里近期宣布的AI战略高度一致。据报道,阿里集团计划在未来三年投入超过3800亿元建设云和AI硬件基础设施,总投入将超过过去十年总和。
此前,阿里自研的"深度思考"推理模型已在夸克AI搜索平台上线,成为国内少数没有接入DeepSeek的大体量C端AI应用。
在基础模型层面,阿里通义大模型家族已跻身全球顶尖开源模型行列。有知情人士透露,"更大规模的模型也将陆续接入夸克"。