微软近期推出了一款名为 Agent Lightning 的开源框架,专为通过强化学习优化多代理系统而设计。这一创新框架能够在不改变现有代理架构的前提下,将真实代理行为转化为强化学习所需的过渡数据,从而显著提升大规模语言模型(LLM)的性能表现。
Agent Lightning 将代理系统抽象为一个决策过程,具体而言,它将代理行为形式化为部分可观测的马尔可夫决策过程。在这个过程中,代理的观察数据对应于当前的输入信息,行动则体现为模型调用,而奖励可以是最终目标奖励或阶段性中间奖励。该框架的核心功能在于提取代理模型的调用记录,并整合输入、输出及奖励信息,通过精密的噪声过滤机制,生成高纯度的训练过渡数据集。
该框架采用独特的“训练代理解耦”设计理念,由 Lightning Server 负责训练和服务工作,同时提供与 OpenAI 兼容的 API 接口,确保更新后的模型能够无缝调用。与此同时,Lightning Client 则部署在现有的代理运行时环境中,实时捕获调用记录并将数据回传至服务器。这种架构设计不仅保持了与工具、浏览器等依赖项的紧密集成,还将 GPU 训练任务集中部署在服务器层,进一步提升了系统效率。

Agent Lightning 支持两种追踪路径以适应不同团队的需求。默认路径采用 OpenTelemetry 进行数据收集,能够便捷地将代理的遥测信息传输至标准化的收集器。对于希望简化部署流程的团队,框架还提供了轻量级的嵌入式追踪器选项。无论选择哪种路径,所有收集到的数据都将统一存储在指定位置,为后续训练提供完整的数据基础。
在实验验证方面,研究团队针对三项典型任务进行了全面评估。首先是文本转 SQL 任务,该任务基于 Spider 基准,涵盖超过10,000个问题实例和200个不同的数据库系统。其次是检索增强生成任务,该任务利用 MuSiQue 基准,构建于包含2100万文档的维基百科规模索引之上。最后是数学问答任务,该任务采用 Calc X 数据集,通过工具调用实现复杂的计算过程。实验结果显示,在所有三项任务中,Agent Lightning 均实现了稳定的奖励提升,证明了其强大的性能优化能力。
论文链接: https://arxiv.org/abs/2508.03680v1

划重点:
🌟 Agent Lightning 是一款开源框架,能够在无需重构现有系统的情况下,有效优化多代理系统的性能表现。
🚀 该框架通过将代理行为建模为部分可观测的马尔可夫决策过程,并提取高纯度的训练过渡数据,实现了智能代理系统的智能化升级。
📈 实验数据有力证明,Agent Lightning 在文本转 SQL、检索增强生成和数学问答等关键任务上均取得了显著的性能提升,展现出强大的实际应用价值。
