微软rStar2-Agent仅140亿参数创佳绩 超越千亿模型

微软在人工智能领域再创佳绩,近期开源了名为 rStar2-Agent 的 AI Agent 推理模型,这一突破性成果引发了广泛关注。该模型采用创新的智能体强化学习方法,令人惊叹的是,其参数量仅为140亿,却在 AIME24数学推理测试中取得了80.6%的惊人准确率,这一成绩成功超越了参数量高达6710亿的 DeepSeek-R1(79.8%)。这一表现彻底颠覆了传统认知中模型参数规模与性能之间的线性关系,为 AI 领域带来了新的启示。

除了在数学推理领域的卓越表现,rStar2-Agent 在其他测试中也展现了强大的实力。在 GPQA-Diamond 科学推理基准测试中,该模型的准确率达到了60.9%,超越了 DeepSeek-V3的59.1%;在 BFCL v3智能体工具使用任务中,其任务完成率更是高达60.8%,显著优于 DeepSeek-V3的57.6%。这些数据有力地证明了 rStar2-Agent 拥有出色的泛化能力,能够在不同领域和任务中稳定发挥。

为了实现这一突破,微软在训练基础设施、算法和训练流程上进行了三大创新。首先,在基础设施方面,微软构建了一个高效的隔离式代码执行服务,该服务能够快速处理海量训练请求,支持每训练步骤高达4.5万次的并发工具调用,平均延迟仅为0.3秒,为模型训练提供了强大的硬件支持。其次,微软提出了全新的 GRPO-RoC 算法,通过科学的奖励机制和精细的算法优化,显著提升了模型在推理过程中的准确性和效率。最后,rStar2-Agent 设计了独特的“非推理微调 + 多阶段强化学习”训练流程,确保模型在各个阶段都能得到充分优化,稳步提升能力。

微软rStar2-Agent仅140亿参数创佳绩 超越千亿模型插图1

这一系列的技术创新使得 rStar2-Agent 在 AI Agent 领域脱颖而出,不仅为微软赢得了声誉,也为未来的智能体研究和应用开辟了新的方向。开源地址:https://github.com/microsoft/rStar

划重点:🌟 rStar2-Agent 模型仅有140亿参数,却在数学推理测试中达到了80.6%的准确率,超越参数量高达6710亿的 DeepSeek-R1。🔧 微软在基础设施、算法和训练流程方面进行了全面创新,为模型的高效训练和出色表现提供了坚实保障。📊 rStar2-Agent 在科学推理和工具使用任务中表现亮眼,展现了强大的泛化能力和广泛的应用潜力。

最新快讯

2026年03月05日

19:04
3月3日,开发商Weyrdworks宣布,桌面宠物模拟游戏《Weyrdlets: Idle Desktop Pets》将于3月17日正式转为付费模式。玩家可于3月17日前免费入库Steam。游戏自2024年7月上线,经持续更新已发展为完整养成作品。3月17日将同步推出2.0版本,重构经济系统,降低道具价格,并确保所有物品均可通过游戏内玩法获取。玩家将在小岛...
19:04
2026年3月5日,广汽丰田宣布在华新能源车型核心供应链已实现本土化。旗下新车铂智7将搭载华为鸿蒙座舱5.0、Momenta R6智能驾驶辅助系统及双腔空气悬架,售价定于20万元以内。此举旨在提升产品竞争力与交付效率,响应中国新能源汽车市场对智能化、高性价比车型的迫切需求。
19:04
2026年2月第二、三周,中国AI模型周调用量分别达4.12万亿和5.16万亿Token,连续两周超越美国同期水平。OpenRouter数据显示,Top5模型中四款来自中国厂商,贡献85.7%调用量。机构指出,AI运营成本中电力占比高达60%-70%,Token可视作‘电力衍生品’。随着国产大模型出海加速及算力需求激增,电力系统长期价值获重估契机。涪陵电力...
19:04
3月5日,*ST松发公告披露,其下属公司恒力造船(大连)有限公司与欧洲船东签订4艘30.6万吨超大型原油运输船(VLCC)建造合同,总金额约4至6亿美元。合同签署地为大连,签约方为恒力造船与 undisclosed European shipowner。该订单金额占公司2024年度经审计主营业务收入的50%以上,系重大经营合同。项目将按国际规范建造,交付期...
19:04
北京时间2026年3月6日凌晨2点,《杀戮尖塔2》将在Steam平台开启抢先体验。本作为Mega Crit开发的续作,延续前作美术风格,新增大量卡牌、敌人、事件与场景,并引入替代章节、5名可选角色(含2名新角色)、4人在线合作模式。游戏强化差异化构筑与剧情深度,通过A/B分支章节提升多周目可玩性。首发支持中文,暂未公布正式版发售时间。
19:04
3月4日,广和通在西班牙巴塞罗那举行的2026年世界移动通信大会(MWC 2026)上,宣布率先实现基于MediaTek T930与高通X85/X82平台的功率等级1(PC1)模组技术落地。该双平台全面支持3Tx/8Rx/L4S关键技术:3Tx提升上行吞吐量最高达68%,8Rx增强信号覆盖40%,L4S显著降低传输时延与丢包率。此举旨在满足5G-A场景对高...
19:04
2026年3月5日,哔哩哔哩(B站)在港交所发布2025年第四季度及全年财报。2025年全年净营业额303.5亿元,同比增长13%;净利润11.9亿元,同比由亏损13.6亿元转为盈利;经调整净利润25.9亿元。第四季度日活用户1.13亿,同比增长10%;月活用户3.66亿,增长8%。公司首次实现美国公认会计准则下全年盈利,董事长陈睿称其为“里程碑之年”。
19:04
微新创想:近日,爱立信联合中国移动在江苏永联村部署了5G-A网络及差异化连接方案。该方案通过引入先进的网络切片技术,实现了对全村无线资源的高效划分,并结合RedCap技术,确保了网络覆盖的全面性和稳定性。这一举措不仅为永联村带来了更优质的通信体验,也为当地数字治理、民生服务以及产业升级提供了强有力的技术支撑。 微新创想:5G-A网络的部署使得村内各类智能应用...
19:04
微新创想:2026年3月5日,香港养和医疗集团与中国人寿保险(海外)股份有限公司正式开启首次合作,标志着香港首家为“ENRICH•盈加”钻石级客户提供全流程健康管理及医疗礼宾服务的医疗机构诞生。此次合作不仅体现了双方在高端医疗服务领域的深度整合,也彰显了对高净值人群健康需求的高度重视。 合作内容涵盖全面的健康评估服务,为客户提供个性化的健康分析与建议。同时,...
18:30
微新创想:2026年3月5日,TÜV莱茵北美洲正式完成对咨询与培训机构Quality Support Group Inc.(QSG)的整合。此次整合在北美地区实施,由TÜV莱茵主导,旨在强化其在该区域的业务布局。 此次整合标志着TÜV莱茵在北美市场迈出了重要的一步。通过将QSG纳入旗下,TÜV莱茵不仅扩大了其服务网络,还增强了在专业领域内的技术实力和行业影响...
18:30
微新创想:2026年3月,爱立信在巴塞罗那举行的MWC世界移动通信大会期间,凭借“意图感知切片(ARRP)”技术荣获GTI年度大奖——移动技术创新突破奖。这项技术代表了5G网络智能化发展的重要一步,其核心在于实现无线资源的自动划分。ARRP通过先进的算法和智能分析,能够实时感知用户需求并动态调整网络资源分配。 微新创想:ARRP具备四大显著特性,包括动态频谱...
18:30
微新创想:3月5日,杭州瓴通智能科技有限公司在浙江杭州正式注册成立,注册资本为1000万元,法定代表人是林鸣晖。公司由阿里巴巴旗下的北京锐讯灵通科技有限公司全资持有,标志着阿里巴巴在智能科技与基础软件领域的布局进一步深化。此次成立的新公司专注于软件开发与销售,同时也涉及计算机软硬件及外围设备的制造业务。通过这一举措,阿里巴巴不仅增强了其在人工智能底层技术方面...