微软rStar2-Agent仅140亿参数创佳绩 超越千亿模型

微软在人工智能领域再创佳绩,近期开源了名为 rStar2-Agent 的 AI Agent 推理模型,这一突破性成果引发了广泛关注。该模型采用创新的智能体强化学习方法,令人惊叹的是,其参数量仅为140亿,却在 AIME24数学推理测试中取得了80.6%的惊人准确率,这一成绩成功超越了参数量高达6710亿的 DeepSeek-R1(79.8%)。这一表现彻底颠覆了传统认知中模型参数规模与性能之间的线性关系,为 AI 领域带来了新的启示。

除了在数学推理领域的卓越表现,rStar2-Agent 在其他测试中也展现了强大的实力。在 GPQA-Diamond 科学推理基准测试中,该模型的准确率达到了60.9%,超越了 DeepSeek-V3的59.1%;在 BFCL v3智能体工具使用任务中,其任务完成率更是高达60.8%,显著优于 DeepSeek-V3的57.6%。这些数据有力地证明了 rStar2-Agent 拥有出色的泛化能力,能够在不同领域和任务中稳定发挥。

为了实现这一突破,微软在训练基础设施、算法和训练流程上进行了三大创新。首先,在基础设施方面,微软构建了一个高效的隔离式代码执行服务,该服务能够快速处理海量训练请求,支持每训练步骤高达4.5万次的并发工具调用,平均延迟仅为0.3秒,为模型训练提供了强大的硬件支持。其次,微软提出了全新的 GRPO-RoC 算法,通过科学的奖励机制和精细的算法优化,显著提升了模型在推理过程中的准确性和效率。最后,rStar2-Agent 设计了独特的“非推理微调 + 多阶段强化学习”训练流程,确保模型在各个阶段都能得到充分优化,稳步提升能力。

微软rStar2-Agent仅140亿参数创佳绩 超越千亿模型插图1

这一系列的技术创新使得 rStar2-Agent 在 AI Agent 领域脱颖而出,不仅为微软赢得了声誉,也为未来的智能体研究和应用开辟了新的方向。开源地址:https://github.com/microsoft/rStar

划重点:🌟 rStar2-Agent 模型仅有140亿参数,却在数学推理测试中达到了80.6%的准确率,超越参数量高达6710亿的 DeepSeek-R1。🔧 微软在基础设施、算法和训练流程方面进行了全面创新,为模型的高效训练和出色表现提供了坚实保障。📊 rStar2-Agent 在科学推理和工具使用任务中表现亮眼,展现了强大的泛化能力和广泛的应用潜力。

最新快讯

2026年03月05日

17:23
微新创想:在生成式AI(AIGC)重塑信息检索范式的今天,传统的SEO(搜索引擎优化)正加速向GEO(Generative Engine Optimization,生成式引擎优化)转型。随着AI技术的广泛应用,用户获取信息的方式发生了根本性变化,越来越多的人依赖AI助手直接获取产品推荐或解决方案。当潜在客户询问“哪款智能手表适合运动”或“最好的项目管理工具有...
17:23
声明:本文来自于微信公众号 卡思数据,作者:岳遥,授权站长之家转载发布。小红书“产出”女明星带货标杆的频率似乎正在加快。去年9月21日,演员吴千语在小红书开启直播带货首秀,最终斩获7000万元GMV,超过了董洁、章小蕙2023年的带货首秀成绩,成为小红书新的带货“一姐”。随后,12月7日,她正式开启第二场直播,开播一小时支付金额...
17:23
微新创想:近日,河北衡水一名9岁女孩在泰国曼谷旅游期间,因连续三天练习仰泳,皮肤被晒得如同酱油般黝黑。这一意外情况引发了网友的广泛关注和热议。 女孩的母亲表示,女儿对仰泳充满热情,每天坚持训练。由于她本身属于黄黑皮体质,平时晒太阳就容易变黑,但这次的晒黑程度却远超预期。即便是短短几天的户外活动,也让她肤色明显加深,令家长感到意外。 更令人忍俊不禁的是,女孩在...
17:23
微新创想:2026年3月5日,东南亚农业无人机标杆企业Aonic(前身为Poladrone Solutions)宣布完成1000万美元A轮融资,由Kairous Capital领投。此次融资标志着Aonic在农业科技领域的持续深耕与快速发展。 该公司总部位于东南亚,专注于农业与工业场景的应用。凭借自研的无人机硬件、全栈软件以及本地化服务生态,Aonic已建立...
17:23
微新创想:2026年3月5日,CORSAIR海盗船正式推出FRAME 5000D WORKSTATION机箱。这款机箱延续了FRAME 5000D的设计理念,专为高性能生产力系统打造。它不仅在外观上延续了系列产品的风格,更在内部结构和功能上进行了多项优化,以满足专业用户对稳定性和性能的双重需求。 该机箱兼容SSI-EEB规格主板,为用户提供了广泛的兼容性选择...
17:23
微新创想:2026年3月5日,自动驾驶公司Momenta已在香港秘密提交首次公开募股(IPO)申请。该公司正与中国国际金融股份有限公司及德意志银行合作推进上市,计划融资不少于10亿美元(约69.06亿元人民币)。此举旨在把握近期港股科技公司上市热潮。 Momenta成立于2016年,是一家专注于自动驾驶技术的创新企业。凭借在人工智能、计算机视觉和高精度地图等...
17:23
微新创想:徕卡即将推出SL系列平价机型SL3-P 徕卡近日宣布将推出一款全新的SL系列平价机型SL3-P 这款新机实际上是松下S1 RII的贴牌版本 SL3-P将搭载44.3MP背照式全画幅传感器以及L2影像技术 该机型预计于2026年5月正式上市 售价为6000欧元约合48163元人民币 尽管目前尚未公布SL3-P的具体外观设计 但根据市场推测其将采用更加...
17:23
微新创想:2026年3月5日,AI招聘自动化平台HireBound宣布完成200万美元种子轮融资。本轮融资由Kalaari Capital领投,Antler、Infinyte Club与CareerNet跟投。这一重要进展标志着HireBound在人工智能驱动的人力资源领域迈出了坚实的一步。 该公司专注于招聘执行层,致力于通过AI智能代理替代传统ATS记录功...
17:23
微新创想:宝马将于2026年3月18日在全球首发全新i3(代号NA0)这款车型作为新世代(Neue Klasse)平台的首款轿车定位为iX3的轿车版 新车将在2026年下半年于慕尼黑工厂正式投产初期仅推出i3 50 xDrive单一款型 该车型将搭载双电机四驱系统最大功率达到463马力峰值扭矩为645牛·米配备108千瓦时电池支持400千瓦的超快充电技术 在...
17:23
微新创想:3月5日凌晨,亚马逊对其机器人部门实施岗位裁减,这是其持续成本优化计划的最新动作。裁员事件发生于美国西雅图总部,由机器人业务副总裁斯科特·德雷瑟通报。虽然亚马逊表示此次裁员规模“相对较少”,但具体人数并未公开披露。公司方面强调,将为受影响的员工提供离职补偿、医疗保险以及再就业支持,以减轻员工在职业转型过程中的压力。 此次调整是亚马逊在整体战略方向上...
17:23
微新创想:3月5日,中国邮政集团浙江省分公司与华数数字电视传媒集团在杭州正式签署战略合作协议。此次合作标志着两家国有企业在数字化转型与融合发展道路上迈出坚实一步。 双方将围绕产业效率提升、民生服务优化、战略价值共创三大方向协同发力。通过深化合作,共同推进数字技术与实体经济的深度融合,赋能物流智能化发展,提升整体运营效率和服务水平。 合作还将聚焦于打通服务渠道...
17:23
微新创想:2026年3月5日,阳狮集团宣布任命Naomi Michael为亚太区首席传播官。她将常驻新加坡,全面负责集团在亚太区各市场及业务线的传播战略,向亚太区CEO林真(Jane Lin-Baden)汇报。 Naomi此前在宏盟媒体担任亚太区品牌营销负责人,积累了丰富的品牌管理与市场推广经验。加入宏盟之前,她曾在IPG盟博担任首席营销与传播官长达九年,期...