微软rStar2-Agent仅140亿参数创佳绩 超越千亿模型

微软在人工智能领域再创佳绩,近期开源了名为 rStar2-Agent 的 AI Agent 推理模型,这一突破性成果引发了广泛关注。该模型采用创新的智能体强化学习方法,令人惊叹的是,其参数量仅为140亿,却在 AIME24数学推理测试中取得了80.6%的惊人准确率,这一成绩成功超越了参数量高达6710亿的 DeepSeek-R1(79.8%)。这一表现彻底颠覆了传统认知中模型参数规模与性能之间的线性关系,为 AI 领域带来了新的启示。

除了在数学推理领域的卓越表现,rStar2-Agent 在其他测试中也展现了强大的实力。在 GPQA-Diamond 科学推理基准测试中,该模型的准确率达到了60.9%,超越了 DeepSeek-V3的59.1%;在 BFCL v3智能体工具使用任务中,其任务完成率更是高达60.8%,显著优于 DeepSeek-V3的57.6%。这些数据有力地证明了 rStar2-Agent 拥有出色的泛化能力,能够在不同领域和任务中稳定发挥。

为了实现这一突破,微软在训练基础设施、算法和训练流程上进行了三大创新。首先,在基础设施方面,微软构建了一个高效的隔离式代码执行服务,该服务能够快速处理海量训练请求,支持每训练步骤高达4.5万次的并发工具调用,平均延迟仅为0.3秒,为模型训练提供了强大的硬件支持。其次,微软提出了全新的 GRPO-RoC 算法,通过科学的奖励机制和精细的算法优化,显著提升了模型在推理过程中的准确性和效率。最后,rStar2-Agent 设计了独特的“非推理微调 + 多阶段强化学习”训练流程,确保模型在各个阶段都能得到充分优化,稳步提升能力。

微软rStar2-Agent仅140亿参数创佳绩 超越千亿模型插图1

这一系列的技术创新使得 rStar2-Agent 在 AI Agent 领域脱颖而出,不仅为微软赢得了声誉,也为未来的智能体研究和应用开辟了新的方向。开源地址:https://github.com/microsoft/rStar

划重点:🌟 rStar2-Agent 模型仅有140亿参数,却在数学推理测试中达到了80.6%的准确率,超越参数量高达6710亿的 DeepSeek-R1。🔧 微软在基础设施、算法和训练流程方面进行了全面创新,为模型的高效训练和出色表现提供了坚实保障。📊 rStar2-Agent 在科学推理和工具使用任务中表现亮眼,展现了强大的泛化能力和广泛的应用潜力。

最新快讯

2025年09月10日

05:25
2025年9月10日,北京时间消息,最新公布的美国API原油库存数据显示,上周库存意外增加125万桶,与市场预期的减少186.9万桶大相径庭,而前一周的库存则录得增加62.2万桶。这一显著超预期的库存增长引发了市场广泛关注,分析师普遍认为,此举可能对国际油价形成下行压力,导致油价承压调整。 市场原本普遍预期美国原油库存将大幅下降,以反映全球需求的强劲复苏...
05:25
2025年9月10日,科技界迎来重磅消息,苹果公司正式发布了备受瞩目的iPhone 17系列。这款新一代旗舰手机不仅延续了苹果一贯的精致设计,更搭载了性能大幅升级的全新A19芯片,为用户带来前所未有的极致体验。据官方数据,A19芯片在性能上实现了高达20%的飞跃,成为移动设备性能的新标杆。 这款先进芯片采用了创新的6核CPU与5核GPU架构,通过优化核心...
04:52
2025年9月10日,北京时间,联合健康股价在美股市场强势上扬,收盘时涨幅高达8.6%,刷新了自5月12日以来的单日最大涨幅纪录。这一显著的市场表现不仅彰显了投资者对联合健康近期优异业务成果的高度认可,更预示着公司未来发展的广阔前景。从市场情绪来看,投资者信心明显回升,交易活跃度较前期显著提升,反映出市场对联合健康未来增长的乐观预期。此次股价大幅上涨,无疑为...
04:52
2025年9月10日,谷歌云计算首席执行官托马斯库里亚(Thomas Kurian)在一场行业峰会上公开表示,谷歌云业务的年度营收预计将在2027年突破580亿美元大关。这一雄心勃勃的预测不仅彰显了谷歌对自身云计算能力的强大信心,更揭示了该公司在云服务领域的长远战略布局。作为全球云服务市场的领军企业,谷歌云正通过持续的技术创新和业务拓展,积极抢占市场份额。库...
04:52
2025年9月10日,北京时间,摩根大通商业与投资银行联席主管Doug Petno在最新业绩展望中透露,公司第三季度交易收入同比增长或将触及10%至20%区间的上限,这一表现不仅超越了市场普遍预期的8.2%,更展现出摩根大通在当前复杂市场环境下的强劲韧性。据Doug Petno进一步分析,投行业务手续费收入同样有望实现“低双位数”的显著增长,进一步印证了该集...
04:52
2025年9月10日,北京时间,新思科技正式发布其第三季度财务报告,展现出强劲的业绩表现。公司本季度营收高达17.4亿美元,较去年同期实现了14%的显著增长,这一数据充分印证了其在全球芯片设计工具领域的市场领导地位。 在盈利能力方面,新思科技第三季度经调整每股收益为3.39美元,虽然略低于去年同期的3.43美元,但整体营收的稳步提升依然凸显了公司的稳健发...
04:52
2025年9月10日,北京时间,全球领先金融服务机构花旗集团正式发布其第三季度业绩报告。报告显示,在当前市场波动加剧但交易活动显著回升的复杂环境下,花旗投资银行业务表现亮眼,手续费收入与交易收入均录得中个位数百分比的正增长。这一积极成果不仅彰显了花旗集团在动荡市场中的稳健运营能力,更揭示了行业转型期中蕴藏的巨大机遇。从宏观经济视角来看,这一数据变化充分印证了...
04:52
2025年9月10日,北京时间,全球知名企业甲骨文正式发布了其最新的财务报告,其中云基础设施业务表现尤为亮眼。报告显示,甲骨文第一季度云基础设施营收高达33亿美元,这一数字不仅彰显了其在该领域的强劲发展势头,更为市场带来了巨大的惊喜。公司更是大胆预测,到2026财年,云基础设施业务的营收将实现惊人增长,预计增幅将高达77%,营收规模有望突破180亿美元大关。...
04:22
科技媒体9to5Mac近日率先发布了苹果新一代Apple Watch Ultra 3智能手表和AirPods Pro 3无线耳机的现场图片,揭示了这两款备受关注产品的最新设计细节。Ultra 3延续了备受好评的49毫米表壳尺寸,通过巧妙收窄边框设计,将显示屏面积显著提升至1245平方毫米,同时分辨率也跃升至422×514像素,不仅屏占比更加突出,更让信息显示...
04:22
在备受瞩目的“前方超燃”主题活动中,苹果公司正式揭晓了iPhone 17、iPhone 17 Pro以及iPhone 17 Pro Max的无线充电升级方案,这些旗舰机型将全面支持最新的Qi 2.2无线充电标准。这一技术突破使得充电功率最高可达惊人的25W,与备受推崇的MagSafe 2磁吸充电器的峰值功率完全一致,同时更令人安心的是,即便在高速充电状态下,...
03:52
2025年9月10日,北京时间,全球知名的科技巨头英伟达正式发布了备受期待的全新芯片系统——Rubin CPX。这款创新产品预计将在2026年底正式面向市场,为各行各业带来革命性的性能提升。根据英伟达官方介绍,Rubin CPX专为应对AI视频生成、软件开发等高复杂度任务而设计,其独特的卡片式结构使其能够灵活嵌入现有服务器系统,或作为独立计算单元独立运行,为...
03:52
在备受瞩目的“前方超燃”主题演讲圆满落幕之际,苹果官方悄然更新了其在线商店,正式推出iPhone Air专属MagSafe电池,官方定价为799元人民币。这款创新配件不仅为iPhone Air带来了革命性的续航解决方案,更在便携性与充电效率上实现了完美平衡。 MagSafe电池延续了苹果一贯的轻薄设计理念,厚度仅为4.5毫米,重量不足200克,轻松放入口袋或...