微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理

2025-09-08 15:35:59 AI动态 56 次阅读

微软研究院最新开源的rStar2-Agent模型在AI数学推理领域掀起波澜，这款仅含140亿参数的智能体凭借突破性的强化学习技术，在多项权威测试中力压参数量高达6710亿的DeepSeek-R1模型，展现出惊人的性能优势。与传统的思维链方法不同，rStar2-Agent创新性地采用了智能体交互机制，赋予模型自主规划推理过程的能力。它能够灵活调用Python代码执行工具进行验证，并根据实时反馈动态调整推理步骤，从而有效规避了传统CoT方法中常见的错误累积难题。

在备受瞩目的美国数学邀请赛基准测试中，rStar2-Agent的表现尤为亮眼。在AIME24数据集上，其pass@1准确率高达80.6%，不仅大幅超越DeepSeek-R1的79.8%，更领先o3-mini的79.6%和Claude Opus4.0的77.0%。在AIME25测试中，该模型准确率仍保持在69.8%，而在HMMT25测试中更是达到了52.7%的优异表现。特别值得一提的是，rStar2-Agent的响应长度显著更短，AIME24测试中平均约9340个token，AIME25测试中约10943个token，仅为DeepSeek-R1的一半左右，充分体现了其高效的推理能力。

在训练效率方面，rStar2-Agent同样表现出色。该模型仅需一周时间即可完成510个强化学习步骤，仅需64块MI300X GPU即可完成训练。其强化学习基础设施支持每步高达4.5万个并发工具调用，平均延迟仅0.3秒，为大规模训练提供了强大支持。为解决代码执行中的环境噪声问题，模型创新性地引入了GRPO-RoC算法，通过”正确时重采样”策略有效保留高质量推理轨迹，显著提升了训练效果。

在泛化能力测试中，rStar2-Agent同样表现出色。在GPQA-Diamond科学推理基准上，其表现优于DeepSeek-V3，同时在BFCL v3工具使用任务、IFEval、Arena-Hard等通用测试中也取得了优异成绩，充分证明了智能体强化学习对提升模型通用能力的积极作用。微软已将rStar2-Agent的代码和训练方法全面开源，基于VERL框架实现多阶段强化学习训练，为AI研究者和开发者提供了宝贵的资源。

这一突破性成果不仅挑战了”参数越多性能越好”的传统观念，更证明了训练方法和架构创新在AI发展中的关键作用。通过智能的训练策略，小型模型完全有能力在特定任务上匹敌大型模型的表现，为资源有限的研究者和开发者开辟了新的可能性。对于整个AI行业而言，这一成果预示着未来发展将更加注重效率和专用性，而非盲目追求模型规模。项目地址：https://github.com/microsoft/rStar

2025年11月28日

17:54

微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理

最新快讯

2025年11月28日

巫师3Steam史低促销来袭仅售14.9元体验传奇冒险

英诺维信获创业接力天使轮投资加速工业机器人技术研发

星川科技全球首套HEV高功率半固态电池量产将引领混合动力汽车新纪元

阿里通义Z-Image生图模型登顶Hugging Face双榜首日下载量50万

陆川新片《天工开物》VR备案拟真实再现明代科技巨著

中科硅纪完成Pre-A轮引战紫金科创等投资专注人灵巧机器人研发

雷迪克独家领投傲意科技亿元B3轮聚焦具身智能与神经接口

亿纬锂能Q3净利增15.13%出货量猛增66.98%

国华智能获时代伯乐战略投资加速人形机器人核心部件研发

夏禾科技成功备案IPO辅导中信证券护航上市新征程

女子生理期马尔代夫潜水被鲨鱼咬伤无视警告拒就医

小鹏P7 Ultra/G7 Ultra图灵AI芯片升级预约开启全球算力之最