微软在人工智能领域再创佳绩,近期开源了名为 rStar2-Agent 的 AI Agent 推理模型,这一突破性成果引发了广泛关注。该模型采用创新的智能体强化学习方法,令人惊叹的是,其参数量仅为140亿,却在 AIME24数学推理测试中取得了80.6%的惊人准确率,这一成绩成功超越了参数量高达6710亿的 DeepSeek-R1(79.8%)。这一表现彻底颠覆了传统认知中模型参数规模与性能之间的线性关系,为 AI 领域带来了新的启示。
除了在数学推理领域的卓越表现,rStar2-Agent 在其他测试中也展现了强大的实力。在 GPQA-Diamond 科学推理基准测试中,该模型的准确率达到了60.9%,超越了 DeepSeek-V3的59.1%;在 BFCL v3智能体工具使用任务中,其任务完成率更是高达60.8%,显著优于 DeepSeek-V3的57.6%。这些数据有力地证明了 rStar2-Agent 拥有出色的泛化能力,能够在不同领域和任务中稳定发挥。
为了实现这一突破,微软在训练基础设施、算法和训练流程上进行了三大创新。首先,在基础设施方面,微软构建了一个高效的隔离式代码执行服务,该服务能够快速处理海量训练请求,支持每训练步骤高达4.5万次的并发工具调用,平均延迟仅为0.3秒,为模型训练提供了强大的硬件支持。其次,微软提出了全新的 GRPO-RoC 算法,通过科学的奖励机制和精细的算法优化,显著提升了模型在推理过程中的准确性和效率。最后,rStar2-Agent 设计了独特的“非推理微调 + 多阶段强化学习”训练流程,确保模型在各个阶段都能得到充分优化,稳步提升能力。
这一系列的技术创新使得 rStar2-Agent 在 AI Agent 领域脱颖而出,不仅为微软赢得了声誉,也为未来的智能体研究和应用开辟了新的方向。开源地址:https://github.com/microsoft/rStar
划重点:🌟 rStar2-Agent 模型仅有140亿参数,却在数学推理测试中达到了80.6%的准确率,超越参数量高达6710亿的 DeepSeek-R1。🔧 微软在基础设施、算法和训练流程方面进行了全面创新,为模型的高效训练和出色表现提供了坚实保障。📊 rStar2-Agent 在科学推理和工具使用任务中表现亮眼,展现了强大的泛化能力和广泛的应用潜力。