微软rStar2-Agent仅140亿参数创佳绩超越千亿模型

2025-09-08 09:18:26 AI动态 41 次阅读

微软在人工智能领域再创佳绩，近期开源了名为 rStar2-Agent 的 AI Agent 推理模型，这一突破性成果引发了广泛关注。该模型采用创新的智能体强化学习方法，令人惊叹的是，其参数量仅为140亿，却在 AIME24数学推理测试中取得了80.6%的惊人准确率，这一成绩成功超越了参数量高达6710亿的 DeepSeek-R1（79.8%）。这一表现彻底颠覆了传统认知中模型参数规模与性能之间的线性关系，为 AI 领域带来了新的启示。

除了在数学推理领域的卓越表现，rStar2-Agent 在其他测试中也展现了强大的实力。在 GPQA-Diamond 科学推理基准测试中，该模型的准确率达到了60.9%，超越了 DeepSeek-V3的59.1%；在 BFCL v3智能体工具使用任务中，其任务完成率更是高达60.8%，显著优于 DeepSeek-V3的57.6%。这些数据有力地证明了 rStar2-Agent 拥有出色的泛化能力，能够在不同领域和任务中稳定发挥。

为了实现这一突破，微软在训练基础设施、算法和训练流程上进行了三大创新。首先，在基础设施方面，微软构建了一个高效的隔离式代码执行服务，该服务能够快速处理海量训练请求，支持每训练步骤高达4.5万次的并发工具调用，平均延迟仅为0.3秒，为模型训练提供了强大的硬件支持。其次，微软提出了全新的 GRPO-RoC 算法，通过科学的奖励机制和精细的算法优化，显著提升了模型在推理过程中的准确性和效率。最后，rStar2-Agent 设计了独特的“非推理微调 + 多阶段强化学习”训练流程，确保模型在各个阶段都能得到充分优化，稳步提升能力。

这一系列的技术创新使得 rStar2-Agent 在 AI Agent 领域脱颖而出，不仅为微软赢得了声誉，也为未来的智能体研究和应用开辟了新的方向。开源地址:https://github.com/microsoft/rStar

划重点:🌟 rStar2-Agent 模型仅有140亿参数，却在数学推理测试中达到了80.6%的准确率，超越参数量高达6710亿的 DeepSeek-R1。🔧 微软在基础设施、算法和训练流程方面进行了全面创新，为模型的高效训练和出色表现提供了坚实保障。📊 rStar2-Agent 在科学推理和工具使用任务中表现亮眼，展现了强大的泛化能力和广泛的应用潜力。

2026年03月05日

17:23

微软rStar2-Agent仅140亿参数创佳绩超越千亿模型

最新快讯

2026年03月05日

AI时代品牌如何被看见？GEOBase实测解析与工具推荐

破亿直播间频出，小红书电商迎来“开门红”

9岁女孩泰国学仰泳3天晒成酱油色回国被海关质疑国籍

Aonic完成1000万美元A轮融资专注农业工业无人机创新应用

海盗船FRAME 5000D工作站机箱发布静音扩展双优化

Momenta秘密提交港股IPO申请拟融资10亿美元把握科技上市热潮

徕卡SL3-P 5月上市 6000欧元定价背照式全画幅相机

HireBound完成200万美元种子轮融资聚焦AI招聘自动化技术

宝马全新i3 NA0 3月18日全球首发新世代首款纯电轿车亮相

亚马逊机器人部门裁员聚焦战略转型 2026年资本支出达2000亿美元

浙江邮政携手华数集团共筑数字浙江新蓝图

阳狮集团任命Naomi Michael为亚太区首席传播官强化品牌影响力

微软rStar2-Agent仅140亿参数创佳绩 超越千亿模型

最新快讯

2026年03月05日

微软rStar2-Agent仅140亿参数创佳绩超越千亿模型