微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理

微软研究院最新开源的rStar2-Agent模型在AI数学推理领域掀起波澜,这款仅含140亿参数的智能体凭借突破性的强化学习技术,在多项权威测试中力压参数量高达6710亿的DeepSeek-R1模型,展现出惊人的性能优势。与传统的思维链方法不同,rStar2-Agent创新性地采用了智能体交互机制,赋予模型自主规划推理过程的能力。它能够灵活调用Python代码执行工具进行验证,并根据实时反馈动态调整推理步骤,从而有效规避了传统CoT方法中常见的错误累积难题。

在备受瞩目的美国数学邀请赛基准测试中,rStar2-Agent的表现尤为亮眼。在AIME24数据集上,其pass@1准确率高达80.6%,不仅大幅超越DeepSeek-R1的79.8%,更领先o3-mini的79.6%和Claude Opus4.0的77.0%。在AIME25测试中,该模型准确率仍保持在69.8%,而在HMMT25测试中更是达到了52.7%的优异表现。特别值得一提的是,rStar2-Agent的响应长度显著更短,AIME24测试中平均约9340个token,AIME25测试中约10943个token,仅为DeepSeek-R1的一半左右,充分体现了其高效的推理能力。

在训练效率方面,rStar2-Agent同样表现出色。该模型仅需一周时间即可完成510个强化学习步骤,仅需64块MI300X GPU即可完成训练。其强化学习基础设施支持每步高达4.5万个并发工具调用,平均延迟仅0.3秒,为大规模训练提供了强大支持。为解决代码执行中的环境噪声问题,模型创新性地引入了GRPO-RoC算法,通过”正确时重采样”策略有效保留高质量推理轨迹,显著提升了训练效果。

微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理插图1

在泛化能力测试中,rStar2-Agent同样表现出色。在GPQA-Diamond科学推理基准上,其表现优于DeepSeek-V3,同时在BFCL v3工具使用任务、IFEval、Arena-Hard等通用测试中也取得了优异成绩,充分证明了智能体强化学习对提升模型通用能力的积极作用。微软已将rStar2-Agent的代码和训练方法全面开源,基于VERL框架实现多阶段强化学习训练,为AI研究者和开发者提供了宝贵的资源。

这一突破性成果不仅挑战了”参数越多性能越好”的传统观念,更证明了训练方法和架构创新在AI发展中的关键作用。通过智能的训练策略,小型模型完全有能力在特定任务上匹敌大型模型的表现,为资源有限的研究者和开发者开辟了新的可能性。对于整个AI行业而言,这一成果预示着未来发展将更加注重效率和专用性,而非盲目追求模型规模。项目地址:https://github.com/microsoft/rStar

最新快讯

2025年09月09日

07:33
足球游戏《UFL》的开发商Strikerz首席执行官Eugene Nashilov近日公开了任天堂在Switch 2平台开发方面的一个重大问题。Nashilov透露,任天堂尚未向包括Strikerz在内的部分免费游戏工作室提供Switch 2开发套件,这直接导致包括《UFL》在内的多款游戏无法启动新平台版本的开发工作。 Nashilov表示,其工作室早在今年...
07:33
9月8日,旧金山知名数据与人工智能公司Databricks宣布成功完成总额高达10亿美元的K轮融资,创下行业新纪录。此次融资由顶级风险投资机构a16z和Insight Partners联合领投,多家知名投资机构参与跟投,使Databricks的估值正式突破1000亿美元大关,跻身全球顶尖科技公司行列。 作为数据分析和机器学习领域的领军企业,Databrick...
07:33
2025年9月9日,北京时间,语音克隆领域的人工智能初创公司ElevenLabs传来重大利好消息。据彭博社周一独家报道,该公司宣布将允许员工以66亿美元的全新估值出售部分股票,这一数字较此前的33亿美元实现了惊人的翻倍增长。这一里程碑式的估值调整,不仅彰显了ElevenLabs在资本市场的强劲表现,更印证了市场对其创新技术与未来增长潜力的深度认可。 回顾El...
07:33
韩国ET News最新消息显示,英伟达近期向三星电子下达了一笔规模空前的GDDR7显存订单,要求三星将供货量提升至当前的两倍。为迅速响应这一庞大需求,三星电子已启动产能扩张计划,其新建的GDDR7生产线预计将在本月内正式投产运营。 据行业消息人士透露,虽然英伟达此次追单的具体金额尚未完全公开,但根据市场估算,订单规模至少达到数百亿韩元级别,更有分析认为可能高...
07:33
9月8日,小米中国区市场部总经理、REDMI品牌总经理王腾通过微博平台正式回应了近期被公司辞退的争议事件。他在公开声明中表示,自己过去在工作中确实犯下了一些错误,并深刻认识到自己的失误,愿意承担由此带来的相应后果和责任。 此前,小米集团曾发布公告宣布,因王腾存在严重违规行为,包括泄露公司机密信息、存在利益冲突等问题,公司依据内部规章制度决定对其进行辞退处理。...
07:33
瓦努阿图岛国南部突发强震 强度达6.8级震源深度仅10公里 当地时间9日上午,太平洋西南部的岛国瓦努阿图南部地区发生6.8级强烈地震,震源深度仅为10公里。此次地震的突发性令人措手不及,目前关于具体影响范围和破坏情况的详细信息仍处于收集阶段,相关部门正在紧急评估灾情。 作为太平洋环火山带上的国家,瓦努阿图地处地壳活动频繁区域,此次地震再次提醒当地居民...
07:33
9月9日8时至10日8时,我国南方多地将迎来强降雨天气,广西大部、广东南部、贵州南部及云南东南部等地将普遍出现大到暴雨,局部地区降雨强度更为惊人。其中,广西中部局地更是可能出现大暴雨,降雨量预计达到100至180毫米,需特别注意防范山洪、滑坡等次生灾害风险。 在长江中下游地区,江苏南部、安徽南部和浙江中北部等地也将遭遇大雨到暴雨袭击,部分地区雨势强劲,可能对...
07:33
9月8日晚间,英国伦敦希思罗机场4号航站楼突发紧急状况,因疑似存在危险物质而紧急关闭,所有人员均已安全疏散。据伦敦消防局最新通报,相关部门正紧张处置该事件,但其他航站楼运营秩序保持正常。目前,事件具体原因及涉事危险物质的性质尚未公布,相关部门正在全力调查中。此次事件虽未对整个机场造成全面影响,但依然引发了广泛关注,公众和媒体均期待相关部门能尽快公布详细调查结...
07:33
中国物流与采购联合会近日正式发布了《中国供应链发展报告(2024-2025)》,全面展现了中国供应链体系正在经历的深刻变革。报告指出,中国正以坚定的步伐从传统的"世界工厂"向现代化的"全球供应链枢纽"迈进,现代物流与先进制造业的协同发展取得了令人瞩目的成就。 在产业升级方面,我国已成功构建起80个国家级先进制造业集群,这些集群广泛覆盖高端装备、新能源、新材料...
07:33
AMD今日正式发布了Adrenalin Edition显卡驱动更新至25.9.1版本,此次升级不仅为玩家带来了更流畅的游戏体验,还重点强化了对多款热门大作的适配能力。新驱动率先支持了《无主之地4》和《Hell Is Us》等备受期待的游戏,让玩家能够第一时间享受到更出色的视觉表现。同时,FSR 4技术也成功在绝大多数DirectX 12游戏中实现全面启用,显...
07:33
2025年9月9日,全球领先的食品饮料公司雀巢正式宣布达成一项重大战略交易——收购英国知名快煮餐企业Mindful Chef。这一举措标志着雀巢将在英国及爱尔兰地区加速其直接面向消费者(Direct-to-Consumer)业务布局,进一步巩固其在欧洲市场的领导地位。Mindful Chef自2015年成立以来,凭借其创新的健康便捷食材包配送模式,迅速赢得了...
07:33
近期,全球知名汽车制造商斯泰兰蒂斯(Stellantis)宣布正在积极筹备发行高评级公司债券的计划。这一战略举措旨在通过优化公司整体财务结构,为未来的业务拓展和重大投资提供强有力的资金支持。据行业专家分析,若该债券发行能够顺利推进并成功落地,将显著提升斯泰兰蒂斯在资本市场的融资能力,为其电动化转型战略的实施注入强劲动力。通过获取低成本、高安全性的资金来源,斯...