微软近期推出了一款名为 Agent Lightning 的开源框架,专为通过强化学习优化多代理系统而设计。这一创新框架能够在不改变现有代理架构的前提下,将真实代理行为转化为强化学习所需的过渡数据,从而显著提升大规模语言模型(LLM)的性能表现。

Agent Lightning 将代理系统抽象为一个决策过程,具体而言,它将代理行为形式化为部分可观测的马尔可夫决策过程。在这个过程中,代理的观察数据对应于当前的输入信息,行动则体现为模型调用,而奖励可以是最终目标奖励或阶段性中间奖励。该框架的核心功能在于提取代理模型的调用记录,并整合输入、输出及奖励信息,通过精密的噪声过滤机制,生成高纯度的训练过渡数据集。

该框架采用独特的“训练代理解耦”设计理念,由 Lightning Server 负责训练和服务工作,同时提供与 OpenAI 兼容的 API 接口,确保更新后的模型能够无缝调用。与此同时,Lightning Client 则部署在现有的代理运行时环境中,实时捕获调用记录并将数据回传至服务器。这种架构设计不仅保持了与工具、浏览器等依赖项的紧密集成,还将 GPU 训练任务集中部署在服务器层,进一步提升了系统效率。

微软Agent Lightning开源框架 强化学习优化大规模语言模型性能插图

Agent Lightning 支持两种追踪路径以适应不同团队的需求。默认路径采用 OpenTelemetry 进行数据收集,能够便捷地将代理的遥测信息传输至标准化的收集器。对于希望简化部署流程的团队,框架还提供了轻量级的嵌入式追踪器选项。无论选择哪种路径,所有收集到的数据都将统一存储在指定位置,为后续训练提供完整的数据基础。

在实验验证方面,研究团队针对三项典型任务进行了全面评估。首先是文本转 SQL 任务,该任务基于 Spider 基准,涵盖超过10,000个问题实例和200个不同的数据库系统。其次是检索增强生成任务,该任务利用 MuSiQue 基准,构建于包含2100万文档的维基百科规模索引之上。最后是数学问答任务,该任务采用 Calc X 数据集,通过工具调用实现复杂的计算过程。实验结果显示,在所有三项任务中,Agent Lightning 均实现了稳定的奖励提升,证明了其强大的性能优化能力。

论文链接: https://arxiv.org/abs/2508.03680v1

微软Agent Lightning开源框架 强化学习优化大规模语言模型性能插图1

划重点:
🌟 Agent Lightning 是一款开源框架,能够在无需重构现有系统的情况下,有效优化多代理系统的性能表现。
🚀 该框架通过将代理行为建模为部分可观测的马尔可夫决策过程,并提取高纯度的训练过渡数据,实现了智能代理系统的智能化升级。
📈 实验数据有力证明,Agent Lightning 在文本转 SQL、检索增强生成和数学问答等关键任务上均取得了显著的性能提升,展现出强大的实际应用价值。

最新快讯

2025年10月30日

13:47
2025年10月28日,浙江温州的王女士因孩子确诊白癜风,需使用紫光灯进行治疗。不料,在紫光灯的照射下,王女士一家人的皮肤和衣物均发出了蓝色荧光,这一意外发现引起了广泛关注。经过仔细排查,王女士发现荧光源头竟是家中的洗衣粉。洗衣粉袋子内部以及洗衣机内的残留物,在紫光灯下均呈现出强烈的发光现象。为了进一步验证,王女士还进行了对比实...
13:47
广州白云国际机场今日迎来重大升级,T3航站楼与第五跑道同步投入运营。这项总投资537.7亿元的三期扩建工程历时五年竣工,标志着机场正式迈入"五条跑道+三座航站楼+两座塔台"的全新运营阶段。新建的T3航站楼以"湾区之翼"为设计理念,巧妙融入岭南文化特色。其首创的开放式观景台可俯瞰三座航站楼全景,为旅客提供独特的航空观赏体验。航站楼内近万平方米的花园景观创下国...
13:47
近日,数字化营销服务商盈天地正式签署A+轮融资协议,获上海松江国投、九亭镇及红瓦绿合联合投资,融资金额达数千万元人民币。作为专注于金融行业Martech领域的科技企业,盈天地以互联网与金融应用融合为基础,为金融机构提供涵盖数字化转型战略、科技平台建设、数据策略与营销运营的全链条服务。此次融资将助力公司进一步完善智能营销生态体系,深化技术能力与产品创新,推动...
13:47
胡润研究院发布《2025胡润女企业家榜》,翰森制药64岁的钟慧娟以1410亿元财富首次成为中国女首富。得益于创新药研发提速、产品放量及国际合作推进,其财富实现近乎翻倍增长。消费电子成为女企业家财富跃升的主要动力,蓝思科技周群飞财富增加470亿元,达1100亿元,位列第二。娃哈哈宗馥莉以875亿元排名第三。立讯精密王来春、领益智造曾芳勤等均实现显著增长。新上...
13:47
2025年10月30日,安纳达公告称,董事长刘军昌因工作变动申请辞去公司董事长、非独立董事及董事会下设委员会相关职务。辞职将在新任董事长选举产生后生效,期间刘军昌将继续履职,确保过渡平稳。公司已提名李崇军为新任非独立董事候选人,其任职资格经董事会提名委员会审核通过,待股东大会审议通过后正式任命,任期至第七届董事会届满。
13:47
近日,专注于塑料PET酶法再生与商业化应用的生物科技企业源天生物宣布,获得丰田通商(上海)有限公司的战略投资。本轮融资与今年9月天创股本的投资共同构成公司连续资本动作,累计融资达数千万元。源天生物依托酶蛋白定向改造、新型固定化酶技术及生物催化工艺强化等核心技术,已实现十余种酶制剂的低成本吨级发酵生产,并推动高附加值生化产品的规模化制备。一苇资本连续四轮担任...
13:47
据彭博社报道,马斯克律师团队承诺将继续推动针对OpenAI的法律诉讼,并批评加州与特拉华州总检察长未能阻止该机构以营利公司形式完成重组。首席律师托贝罗夫指出,不能通过仓促协议掩盖OpenAI的违法行为。近日OpenAI宣布向微软转让27%股权,确保非营利部门继续控制营利业务,实现首席执行官奥尔特曼的长期目标。马斯克与奥尔特曼自去年起就OpenAI未来发展持...
13:16
亚马逊游戏部门迎来重大战略转型,尔湾与圣地亚哥两大办公室及核心发行团队将面临"结构性岗位调整"。这一决定意味着亚马逊将大幅缩减对高预算MMO项目的资金投入,正式开启其在线游戏开发领域的逐步收缩进程。值得注意的是,《新世界》曾创下超90万同时在线的辉煌纪录,但公司最新公告明确指出,即将推出的内容更新将是该游戏的最终篇章,服务器服务将持续至2026年。 亚马逊游...
12:43
卓润生物近日传来振奋人心的消息,成功完成A轮融资,由深创投独家领投。作为一家深耕生物医药体外诊断(IVD)与食品安全检测领域的创新企业,卓润生物凭借其卓越的技术实力和前瞻性的市场布局,在资本市场上备受瞩目。 该公司以化学发光、荧光免疫、胶体金和微流控四大核心技术平台为基石,构建了完善的体外诊断产品体系。其产品线覆盖了心脏标志物、甲状腺功能、内分泌激素、自身免...
12:43
一影医疗近日成功完成新一轮战略融资,由知名投资机构巨石创投领投。作为国内领先的医疗三维成像设备研发企业,一影医疗凭借其创新技术实力,已成功推出国内首款专为骨科手术设计的3D平板小C设备——3D C-arm。该设备不仅完整继承了传统C形臂设备灵活移动、操作便捷的核心优势,更突破性地集成了多角度3D成像技术,实现了术中实时三维影像重建功能。这一创新技术能够与骨科...
12:43
科技媒体NeoWin最新报道,OpenAI正式发布了备受期待的gpt-oss-safeguard-120b和gpt-oss-safeguard-20b两款开源模型,这标志着继今年gpt-oss系列成功推出后的又一重大开源里程碑。这两款新模型均采用行业通用的Apache 2.0许可证,为全球开发者提供了完全免费的使用和修改权限,极大地降低了AI应用的技术门槛。...
12:43
2025年10月30日,杭州见证了中国东方教育与支付宝的里程碑式合作签约仪式。双方正式达成全面战略合作协议,将充分发挥各自优势,深度整合资源,将支付宝领先的智能技术与中国东方教育成熟的职业培训体系有机结合,共同打造一个功能强大、服务高效的线上信息与服务平台。这一创新合作模式不仅标志着职业教育领域的一次重要突破,更预示着行业数字化转型进入全新阶段。通过技术赋能...