微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理

2025-09-08 15:35:59 AI动态 37 次阅读

微软研究院最新开源的rStar2-Agent模型在AI数学推理领域掀起波澜，这款仅含140亿参数的智能体凭借突破性的强化学习技术，在多项权威测试中力压参数量高达6710亿的DeepSeek-R1模型，展现出惊人的性能优势。与传统的思维链方法不同，rStar2-Agent创新性地采用了智能体交互机制，赋予模型自主规划推理过程的能力。它能够灵活调用Python代码执行工具进行验证，并根据实时反馈动态调整推理步骤，从而有效规避了传统CoT方法中常见的错误累积难题。

在备受瞩目的美国数学邀请赛基准测试中，rStar2-Agent的表现尤为亮眼。在AIME24数据集上，其pass@1准确率高达80.6%，不仅大幅超越DeepSeek-R1的79.8%，更领先o3-mini的79.6%和Claude Opus4.0的77.0%。在AIME25测试中，该模型准确率仍保持在69.8%，而在HMMT25测试中更是达到了52.7%的优异表现。特别值得一提的是，rStar2-Agent的响应长度显著更短，AIME24测试中平均约9340个token，AIME25测试中约10943个token，仅为DeepSeek-R1的一半左右，充分体现了其高效的推理能力。

在训练效率方面，rStar2-Agent同样表现出色。该模型仅需一周时间即可完成510个强化学习步骤，仅需64块MI300X GPU即可完成训练。其强化学习基础设施支持每步高达4.5万个并发工具调用，平均延迟仅0.3秒，为大规模训练提供了强大支持。为解决代码执行中的环境噪声问题，模型创新性地引入了GRPO-RoC算法，通过”正确时重采样”策略有效保留高质量推理轨迹，显著提升了训练效果。

在泛化能力测试中，rStar2-Agent同样表现出色。在GPQA-Diamond科学推理基准上，其表现优于DeepSeek-V3，同时在BFCL v3工具使用任务、IFEval、Arena-Hard等通用测试中也取得了优异成绩，充分证明了智能体强化学习对提升模型通用能力的积极作用。微软已将rStar2-Agent的代码和训练方法全面开源，基于VERL框架实现多阶段强化学习训练，为AI研究者和开发者提供了宝贵的资源。

这一突破性成果不仅挑战了”参数越多性能越好”的传统观念，更证明了训练方法和架构创新在AI发展中的关键作用。通过智能的训练策略，小型模型完全有能力在特定任务上匹敌大型模型的表现，为资源有限的研究者和开发者开辟了新的可能性。对于整个AI行业而言，这一成果预示着未来发展将更加注重效率和专用性，而非盲目追求模型规模。项目地址：https://github.com/microsoft/rStar

2026年03月05日

19:04

微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理

最新快讯

2026年03月05日

《Weyrdlets》将于3月17日转为付费游戏

广汽丰田加速新能源车型本土化，铂智7将搭载鸿蒙座舱

中国AI模型周调用量超美国，Token成电力新指标

*ST松发下属公司签4艘VLCC建造合同

《杀戮尖塔2》明日凌晨2点开启Steam抢先体验

广和通在MWC 2026首发PC1级双平台模组

B站2025年全年扭亏为盈，日活达1.13亿

江苏永联村成全国首个5G-A全覆盖村级单位

养和医疗携手中国人寿（海外）推高端健康管理服务

TÜV莱茵完成对北美咨询机构QSG整合深化本地化服务战略

爱立信ARRP技术斩获GTI年度创新突破奖提升5G网络效率与服务响应能力

阿里巴巴全资收购瓴通智能杭州成立新公司布局智能科技领域