
微新创想:3月4日,蚂蚁集团联合清华大学发布开源强化学习训练框架 AReaL v1.0稳定版。该版本主打“Agent 一键接入 RL 训练”:无需修改原有代码,兼容各类 Agent 框架,让智能体强化学习训练开箱即用。随着2026年开年以来,Agent 技术持续升温,以 LangChain、Claude Code、OpenClaw 为代表的智能体框架迅速发展,但也暴露出两大瓶颈。一是接入训练成本高:现有智能体框架接口各异,每接入一个往往需要编写整套适配代码。二是 Agent 缺乏持续进化的能力:多数 Agent 的能力取决于底层模型在训练阶段习得的固定权重,部署后无法再针对特定场景持续优化,能力上限在交付时便已确定。

AReaL 是首个全异步训推解耦的大模型强化学习训练系统,能让 Agent 在真实任务交互中获得反馈、持续优化决策。此次发布的 v1.0 版本让任意 Agent 零改造接入 RL 训练成为现实。通过在智能体与训练系统之间加入 Proxy Worker 中转层,开发者只需修改一个请求地址即可接入训练。以当前大热的 OpenClaw 为例,开发者只需在 OpenClaw 配置文件中将 base_url 和 api_key 指向 AReaL 网关,就能让自己的 OpenClaw 接入强化学习训练。
智能体像往常一样执行任务,用户周期性给 Agent 完成任务的情况打分,AReaL 在后台自动完成训练数据的采集与模型的更新,在持续使用的过程中让智能体自动进化。AReaL v1.0 还推出了原生训练引擎 Archon,它是基于 PyTorch 原生能力实现完整的5D 并行(数据并行、流水线并行、张量并行、上下文并行、专家并行),降低了安装与调试门槛,同时在训练与推理侧提供多种后端选择,便于在不同环境中灵活部署。

令人惊讶的是,这样一个复杂的分布式系统,从零开始实现到验证正确性,仅用了1人·月的工作量。32天内,累计修改近百万行代码完整实现了 Archon 引擎,让它能训练千亿参数 MoE 模型。创造这一效率奇迹的秘诀在于 AReaL 集成的一整套 AI 辅助开发体系,实现了复杂工程开发的高度自动化。
AReaL v1.0 引入的 AI 辅助开发流程,为开发者提供了从规划、编码、校验到 PR 创建的全链路支持。尤其是在处理 MoE 并行、内存优化、算法实现等核心模块时,专属的 AI 编程助手会像一位资深专家,在代码变更时及时出现并提供针对性指导,为每一次代码变更保驾护航,有效降低了开发和维护的门槛。
AReaL 的 AI 辅助编程不只是提效工具,更能在复杂基础设施工程中承担“可交付”的研发工作,引领了下一代 AI 基础设施工程范式的革新。AReaL 团队表示,将继续围绕训练引擎、易用性和多模态智能体训练等方向迭代。目前 AReaL v1.0 的代码与文档已在 inclusionAI 社区开源。
