微软Agent Lightning开源框架强化学习优化大规模语言模型性能

2025-10-30 11:13:18 AI动态 5 次阅读

微软近期推出了一款名为 Agent Lightning 的开源框架，专为通过强化学习优化多代理系统而设计。这一创新框架能够在不改变现有代理架构的前提下，将真实代理行为转化为强化学习所需的过渡数据，从而显著提升大规模语言模型（LLM）的性能表现。

Agent Lightning 将代理系统抽象为一个决策过程，具体而言，它将代理行为形式化为部分可观测的马尔可夫决策过程。在这个过程中，代理的观察数据对应于当前的输入信息，行动则体现为模型调用，而奖励可以是最终目标奖励或阶段性中间奖励。该框架的核心功能在于提取代理模型的调用记录，并整合输入、输出及奖励信息，通过精密的噪声过滤机制，生成高纯度的训练过渡数据集。

该框架采用独特的“训练代理解耦”设计理念，由 Lightning Server 负责训练和服务工作，同时提供与 OpenAI 兼容的 API 接口，确保更新后的模型能够无缝调用。与此同时，Lightning Client 则部署在现有的代理运行时环境中，实时捕获调用记录并将数据回传至服务器。这种架构设计不仅保持了与工具、浏览器等依赖项的紧密集成，还将 GPU 训练任务集中部署在服务器层，进一步提升了系统效率。

Agent Lightning 支持两种追踪路径以适应不同团队的需求。默认路径采用 OpenTelemetry 进行数据收集，能够便捷地将代理的遥测信息传输至标准化的收集器。对于希望简化部署流程的团队，框架还提供了轻量级的嵌入式追踪器选项。无论选择哪种路径，所有收集到的数据都将统一存储在指定位置，为后续训练提供完整的数据基础。

在实验验证方面，研究团队针对三项典型任务进行了全面评估。首先是文本转 SQL 任务，该任务基于 Spider 基准，涵盖超过10,000个问题实例和200个不同的数据库系统。其次是检索增强生成任务，该任务利用 MuSiQue 基准，构建于包含2100万文档的维基百科规模索引之上。最后是数学问答任务，该任务采用 Calc X 数据集，通过工具调用实现复杂的计算过程。实验结果显示，在所有三项任务中，Agent Lightning 均实现了稳定的奖励提升，证明了其强大的性能优化能力。

论文链接: https://arxiv.org/abs/2508.03680v1

划重点:
🌟 Agent Lightning 是一款开源框架，能够在无需重构现有系统的情况下，有效优化多代理系统的性能表现。
🚀 该框架通过将代理行为建模为部分可观测的马尔可夫决策过程，并提取高纯度的训练过渡数据，实现了智能代理系统的智能化升级。
📈 实验数据有力证明，Agent Lightning 在文本转 SQL、检索增强生成和数学问答等关键任务上均取得了显著的性能提升，展现出强大的实际应用价值。