微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理

微软研究院最新开源的rStar2-Agent模型在AI数学推理领域掀起波澜,这款仅含140亿参数的智能体凭借突破性的强化学习技术,在多项权威测试中力压参数量高达6710亿的DeepSeek-R1模型,展现出惊人的性能优势。与传统的思维链方法不同,rStar2-Agent创新性地采用了智能体交互机制,赋予模型自主规划推理过程的能力。它能够灵活调用Python代码执行工具进行验证,并根据实时反馈动态调整推理步骤,从而有效规避了传统CoT方法中常见的错误累积难题。

在备受瞩目的美国数学邀请赛基准测试中,rStar2-Agent的表现尤为亮眼。在AIME24数据集上,其pass@1准确率高达80.6%,不仅大幅超越DeepSeek-R1的79.8%,更领先o3-mini的79.6%和Claude Opus4.0的77.0%。在AIME25测试中,该模型准确率仍保持在69.8%,而在HMMT25测试中更是达到了52.7%的优异表现。特别值得一提的是,rStar2-Agent的响应长度显著更短,AIME24测试中平均约9340个token,AIME25测试中约10943个token,仅为DeepSeek-R1的一半左右,充分体现了其高效的推理能力。

在训练效率方面,rStar2-Agent同样表现出色。该模型仅需一周时间即可完成510个强化学习步骤,仅需64块MI300X GPU即可完成训练。其强化学习基础设施支持每步高达4.5万个并发工具调用,平均延迟仅0.3秒,为大规模训练提供了强大支持。为解决代码执行中的环境噪声问题,模型创新性地引入了GRPO-RoC算法,通过”正确时重采样”策略有效保留高质量推理轨迹,显著提升了训练效果。

微软14B参数模型击败671B巨模 AI智能体强化学习革新数学推理插图1

在泛化能力测试中,rStar2-Agent同样表现出色。在GPQA-Diamond科学推理基准上,其表现优于DeepSeek-V3,同时在BFCL v3工具使用任务、IFEval、Arena-Hard等通用测试中也取得了优异成绩,充分证明了智能体强化学习对提升模型通用能力的积极作用。微软已将rStar2-Agent的代码和训练方法全面开源,基于VERL框架实现多阶段强化学习训练,为AI研究者和开发者提供了宝贵的资源。

这一突破性成果不仅挑战了”参数越多性能越好”的传统观念,更证明了训练方法和架构创新在AI发展中的关键作用。通过智能的训练策略,小型模型完全有能力在特定任务上匹敌大型模型的表现,为资源有限的研究者和开发者开辟了新的可能性。对于整个AI行业而言,这一成果预示着未来发展将更加注重效率和专用性,而非盲目追求模型规模。项目地址:https://github.com/microsoft/rStar

最新快讯

2026年03月05日

19:04
3月3日,开发商Weyrdworks宣布,桌面宠物模拟游戏《Weyrdlets: Idle Desktop Pets》将于3月17日正式转为付费模式。玩家可于3月17日前免费入库Steam。游戏自2024年7月上线,经持续更新已发展为完整养成作品。3月17日将同步推出2.0版本,重构经济系统,降低道具价格,并确保所有物品均可通过游戏内玩法获取。玩家将在小岛...
19:04
2026年3月5日,广汽丰田宣布在华新能源车型核心供应链已实现本土化。旗下新车铂智7将搭载华为鸿蒙座舱5.0、Momenta R6智能驾驶辅助系统及双腔空气悬架,售价定于20万元以内。此举旨在提升产品竞争力与交付效率,响应中国新能源汽车市场对智能化、高性价比车型的迫切需求。
19:04
2026年2月第二、三周,中国AI模型周调用量分别达4.12万亿和5.16万亿Token,连续两周超越美国同期水平。OpenRouter数据显示,Top5模型中四款来自中国厂商,贡献85.7%调用量。机构指出,AI运营成本中电力占比高达60%-70%,Token可视作‘电力衍生品’。随着国产大模型出海加速及算力需求激增,电力系统长期价值获重估契机。涪陵电力...
19:04
3月5日,*ST松发公告披露,其下属公司恒力造船(大连)有限公司与欧洲船东签订4艘30.6万吨超大型原油运输船(VLCC)建造合同,总金额约4至6亿美元。合同签署地为大连,签约方为恒力造船与 undisclosed European shipowner。该订单金额占公司2024年度经审计主营业务收入的50%以上,系重大经营合同。项目将按国际规范建造,交付期...
19:04
北京时间2026年3月6日凌晨2点,《杀戮尖塔2》将在Steam平台开启抢先体验。本作为Mega Crit开发的续作,延续前作美术风格,新增大量卡牌、敌人、事件与场景,并引入替代章节、5名可选角色(含2名新角色)、4人在线合作模式。游戏强化差异化构筑与剧情深度,通过A/B分支章节提升多周目可玩性。首发支持中文,暂未公布正式版发售时间。
19:04
3月4日,广和通在西班牙巴塞罗那举行的2026年世界移动通信大会(MWC 2026)上,宣布率先实现基于MediaTek T930与高通X85/X82平台的功率等级1(PC1)模组技术落地。该双平台全面支持3Tx/8Rx/L4S关键技术:3Tx提升上行吞吐量最高达68%,8Rx增强信号覆盖40%,L4S显著降低传输时延与丢包率。此举旨在满足5G-A场景对高...
19:04
2026年3月5日,哔哩哔哩(B站)在港交所发布2025年第四季度及全年财报。2025年全年净营业额303.5亿元,同比增长13%;净利润11.9亿元,同比由亏损13.6亿元转为盈利;经调整净利润25.9亿元。第四季度日活用户1.13亿,同比增长10%;月活用户3.66亿,增长8%。公司首次实现美国公认会计准则下全年盈利,董事长陈睿称其为“里程碑之年”。
19:04
近日,爱立信联合中国移动在江苏永联村部署5G-A网络及差异化连接方案。该方案采用网络切片、无线资源划分和RedCap技术,实现全村5G-A网络全覆盖。此举推动当地数字治理、民生服务与产业升级,支持5G对讲、可穿戴设备公共安全等应用。永联村由此成为全国首个完成5G-A全域覆盖的行政村,标志着乡村数智化转型迈出关键一步。
19:04
2026年3月5日,香港养和医疗集团与中国人寿保险(海外)股份有限公司首次合作,成为香港首家为“ENRICH•盈加”钻石级客户定制全流程健康管理及医疗礼宾服务的医疗机构。合作覆盖健康评估、专属医生协调、快速预约、跨境转诊支持等环节,旨在提升高净值客户的就医体验与健康保障水平。服务即日起在香港正式推出。
18:30
微新创想:2026年3月5日,TÜV莱茵北美洲正式完成对咨询与培训机构Quality Support Group Inc.(QSG)的整合。此次整合在北美地区实施,由TÜV莱茵主导,旨在强化其在该区域的业务布局。 此次整合标志着TÜV莱茵在北美市场迈出了重要的一步。通过将QSG纳入旗下,TÜV莱茵不仅扩大了其服务网络,还增强了在专业领域内的技术实力和行业影响...
18:30
微新创想:2026年3月,爱立信在巴塞罗那举行的MWC世界移动通信大会期间,凭借“意图感知切片(ARRP)”技术荣获GTI年度大奖——移动技术创新突破奖。这项技术代表了5G网络智能化发展的重要一步,其核心在于实现无线资源的自动划分。ARRP通过先进的算法和智能分析,能够实时感知用户需求并动态调整网络资源分配。 微新创想:ARRP具备四大显著特性,包括动态频谱...
18:30
微新创想:3月5日,杭州瓴通智能科技有限公司在浙江杭州正式注册成立,注册资本为1000万元,法定代表人是林鸣晖。公司由阿里巴巴旗下的北京锐讯灵通科技有限公司全资持有,标志着阿里巴巴在智能科技与基础软件领域的布局进一步深化。此次成立的新公司专注于软件开发与销售,同时也涉及计算机软硬件及外围设备的制造业务。通过这一举措,阿里巴巴不仅增强了其在人工智能底层技术方面...