智能代理能否成为开启通用人工智能(AGI)大门的钥匙?复旦大学自然语言处理团队(FudanNLP)最新发布的LLM-based Agents综述论文,以长达86页的篇幅和600余篇参考文献,全面探讨了基于大型语言模型的智能代理现状与发展。从AI Agent的历史演进出发,论文系统梳理了LLM-based Agent的背景、构成、应用场景及备受关注的代理社会,并深入探讨了相关领域的前瞻开放问题,为未来发展趋势提供了重要参考。论文链接:https://arxiv.org/pdf/2309.07864.pdf LLM-based Agent论文列表:https://github.com/WooooDyy/LLM-Agent-Paper-List 团队成员将为每篇相关论文添加「一句话概括」,欢迎Star仓库。

研究背景
长期以来,研究者们致力于打造与人类相当甚至超越人类水平的通用人工智能(AGI)。早在1950年代,艾伦·图灵就将「智能」的概念扩展至人工实体,并提出著名的图灵测试。这些人工智能实体被称为「代理」(Agent)。这一概念源于哲学,描述了拥有欲望、信念、意图及行动能力的实体。在人工智能领域,代理被赋予新的含义:具有自主性、反应性、积极性和社交能力的智能实体。由于「Agent」术语的中文译名尚未形成共识,学者们或将其译为智能体、行为体、代理或智能代理,本文统一使用「代理」和「智能代理」。

从那时起,代理的设计成为人工智能社区的焦点。然而,过去的研究主要集中在增强代理的特定能力,如符号推理或特定任务的掌握(国际象棋、围棋等)。这些研究更注重算法设计和训练策略,而忽视了模型固有的通用能力发展,如知识记忆、长期规划、有效泛化和高效互动。事实证明,增强模型固有能力是推动智能代理进一步发展的关键。

大型语言模型(LLMs)的出现为智能代理发展带来了新希望。若将NLP到AGI的发展路线分为五级:语料库、互联网、感知、具身和社会属性,目前的大型语言模型已达到第二级,具有互联网规模的文本输入和输出。在此基础上,赋予LLM-based Agents感知空间和行动空间,它们将迈向第三、第四级。进一步地,多个代理通过互动、合作解决复杂任务或反映现实社会行为,则有望达到第五级——代理社会。作者们设想了一个由智能代理构成的和谐社会,人类也可参与其中。场景取材自《原神》中的海灯节。

一个Agent的诞生
拥有大模型加持的智能代理会是什么样?作者们受达尔文「适者生存」法则启发,提出了基于大模型的智能代理通用框架。个体若要在社会中生存,必须学会适应环境,因此需要认知能力,并能够感知、应对外界变化。同样,智能代理的框架也由三部分组成:控制端(Brain)、感知端(Perception)和行动端(Action)。

控制端(Brain)
通常由LLMs构成,是智能代理的核心。它不仅存储记忆和知识,还承担信息处理、决策等功能,可呈现推理和计划过程,应对未知任务,体现智能代理的泛化性和迁移性。

感知端(Perception)
将智能代理的感知空间从纯文本拓展至文本、视觉和听觉等多模态领域,使其更有效地获取和利用环境信息。

行动端(Action)
除了常规文本输出,还赋予代理具身能力和使用工具的能力,使其更好地适应环境变化,通过反馈与环境交互,甚至塑造环境。

LLM-based Agent的概念框架包含三部分:控制端(Brain)、感知端(Perception)和行动端(Action)。作者们以人类询问是否会下雨为例说明LLM-based Agent的工作流程:感知端(Perception)将指令转换为LLMs可理解的表示,控制端(Brain)根据天气和天气预报进行推理和行动规划,行动端(Action)做出响应并将雨伞递给人类。通过重复这一过程,智能代理可不断获得反馈并与环境交互。

控制端(Brain)的五个能力
1. 自然语言交互:LLMs强大的自然语言生成和理解能力,使智能代理能通过自然语言与外界多轮交互,实现目标。具体分为高质量文本生成和言外之意的理解。
2. 知识:基于大批量语料训练的LLMs,拥有存储海量知识的能力,包括语言知识、常识知识和专业技能知识。
3. 记忆:记忆模块储存代理过往的观察、思考和行动序列,通过特定记忆机制,代理可反思并应用先前策略,借鉴经验适应陌生环境。提升记忆能力的方法包括扩展Backbone架构长度限制、总结记忆和压缩记忆。
4. 推理&规划:推理能力对智能代理进行决策、分析等复杂任务至关重要。具体到LLMs,是以思维链(CoT)为代表的提示方法。规划则是面对大型挑战时常用的策略,帮助代理组织思维、设定目标并确定实现目标的步骤。
5. 迁移性&泛化性:拥有世界知识的LLMs赋予智能代理强大的迁移与泛化能力。通过指令微调的大模型在zero-shot测试中表现良好,在许多任务上取得不亚于专家模型的成绩。此外,情景学习和持续学习也为代理在现实世界中的应用提供了更多可能性。

感知端(Perception)
人类通过多模态方式感知世界,因此研究者们对LLM-based Agents抱有同样期待。多模态感知能加深代理对工作环境的理解,显著提升其通用性。具体包括:
1. 文本输入:作为LLMs最基础的能力,此处不再赘述。
2. 视觉输入:LLMs本身不具备视觉感知能力,但可通过将视觉输入转为文本描述(Image Captioning)或对视觉信息进行编码表示来理解。
3. 听觉输入:听觉也是人类感知的重要组成部分。LLMs可通过级联方式调用现有工具集或专家模型感知音频信息,也可通过频谱图(Spectrogram)进行直观表示。
4. 其他输入:现实世界中的信息远不止文本、视觉和听觉。未来,智能代理或将配备触觉、嗅觉等感知模块,并感受环境温度、湿度、明暗程度,采取更Environment-aware的行动。此外,还可引入对更广阔整体环境的感知模块。

行动端(Action)
在大脑做出分析、决策后,代理还需做出行动以适应或改变环境:
1. 文本输出:作为LLMs最基础的能力,此处不再赘述。
2. 工具使用:工具作为使用者能力的扩展,可帮助代理在专业性、事实性、可解释性等方面提供帮助,并扩展智能代理的行动空间。目前主要的工具学习方法包括从演示中学习和从反馈中学习。
3. 具身行动:具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动被视为虚拟智能与物理现实的互通桥梁。根据代理在任务中的自主程度,原子行动包括Observation(定位自身位置、感知对象物品和获取环境信息)、Manipulation(完成抓取、推动等操作任务)和Navigation(根据任务目标变换自身位置并更新自身状态)。通过组合这些原子行动,代理可完成更复杂的任务。

Agent in Practice:多样化的应用场景
当下,LLM-based Agents已展现出令人瞩目的多样性和强大性能。AutoGPT、MetaGPT、CAMEL以及GPT Engineer等应用实例正在以前所未有的速度蓬勃发展。作者们讨论了Agent in Practice的设计原则:
1. 帮助用户从日常任务、重复劳动中解脱出来,减轻人类工作压力,提高解决任务的效率。
2. 不再需要用户提出显式的低级指令,代理可完全自主地分析、规划、解决问题。
3. 解放双手后,尝试解放大脑:在前沿科学领域充分发挥潜能,完成创新性、探索性工作。

基于此,代理的应用有三种范式:单代理、多代理、人机交互。
1. 单代理场景:接受人类自然语言命令,执行日常任务的智能代理备受用户青睐。作者们将其应用场景划分为三个层次:任务导向、创新导向、生命周期导向。
– 任务导向:代理帮助人类处理日常基本任务,需具备基本指令理解、任务分解、与环境交互的能力。具体可分为模拟网络环境与模拟生活场景。
– 创新导向:代理在前沿科学领域展现自主探究潜力,虽受专业领域复杂性和训练数据缺乏阻碍,但已在化学、材料、计算机等领域取得进展。
– 生命周期导向:代理在开放世界中不断探索、学习新技能并长久生存,以《我的世界》游戏为例展开介绍。

2. 多代理场景:早在1986年,Marvin Minsky就预言智力是在许多较小、特定功能的代理相互作用中产生的。多代理系统主要关注代理们如何有效协调并协作解决问题。作者们将多代理交互划分为两种形式:
– 合作型互动:作为实际应用中最广泛的类型,合作型代理系统可提高任务效率、共同改进决策。具体分为无序合作(代理自由表达观点)和有序合作(代理遵循规则逐一发表观点)。
– 对抗型互动:智能代理以针锋相对的方式进行互动,通过竞争、谈判、辩论等形式,抛弃错误信念,反思行为或推理过程,提升系统响应质量。

3. 人机交互场景:智能代理通过与人类交互,合作完成任务。一方面,代理的动态学习能力需要沟通交流支持;另一方面,代理系统在可解释性上的不足需要人类参与规范与监督。作者们将其划分为两种模式:
– Instructor-Executor模式:人类作为指导者,给出指令、反馈意见;代理作为执行者,逐步调整、优化。这种模式在教育、医疗、商业等领域得到广泛应用。
– Equal Partnership模式:代理在与人类交流中表现出共情能力,或以平等身份参与任务执行。智能代理展现出日常生活应用潜力,有望融入人类社会。

Agent 社会:从个性到社会性
长期以来,研究人员憧憬构建「交互式的人工社会」,从沙盒游戏《模拟人生》到「元宇宙」,人们对模拟社会的定义可概述为:环境+环境中生存、互动的个体。作者们用一张图描述了Agent社会的概念框架,分为两个关键部分:代理和环境。
左侧部分:在个体层面上,代理表现出多种内化行为(如计划、推理、反思),并显现内在人格特征(认知、情感、性格)。
中间部分:单个代理可与其他代理个体组成群体,共同展现合作等群体行为(如协同合作)。
右侧部分:环境形式可以是虚拟沙盒环境或真实物理世界,要素包括人类参与者和各类可用资源。对于单个代理而言,其他代理也属于环境的一部分。

整体互动:代理们通过感知外界环境、采取行动,积极参与整个交互过程。代理的社会行为与人格
社会行为:从社会角度出发,可分为个体行为(以感知为代表的输入、行动为代表的输出、代理自身的内化行为)和群体行为(以协作为代表的积极行为、以冲突为代表的消极行为、以从众、旁观为代表的中立行为)。
人格:包括认知、情感和性格。代理通过与群体和环境的互动中逐渐塑造人格,展现出「类人智能」。
– 认知(Cognitive abilities):涵盖代理获取和理解知识的过程,研究表明,基于LLM的代理在某些方面能表现出类似于人类的深思熟虑和智力水平。
– 情感(Emotional intelligence):涉及主观感受和情绪状态(如喜怒乐悲),以及表现出同情和共情的能力。
– 性格(Character portrayal):研究人员利用大五人格、MBTI测试等成熟评测方式,探究LLMs的性格特征多样性。

模拟社会的运行环境
代理社会不仅由独立的个体构成,还包括与其交互的环境。环境对代理的感知、行动和互动产生影响,反过来,代理也通过行为和决策改变环境状态。对于单个代理而言,环境包括其他自主代理、人类以及可使用的资源。作者们探讨了环境的三种类型:
1. 基于文本的环境:由于LLMs主要依赖语言作为输入和输出格式,因此基于文本的环境是代理最自然的操作平台。文本环境提供语义和背景知识,代理依赖文本资源来感知、推理和采取行动。
2. 虚拟沙盒环境:沙盒是指可受控且隔离的环境,常用于软件测试和病毒分析。代理社会的虚拟沙盒环境作为模拟社会互动和行为仿真的平台,其特点包括可视化(可用2D图形界面或3D建模展示世界)和可扩展性(可构建和部署各种场景进行实验)。
3. 真实的物理环境:物理环境由实际物体和空间组成,代理在其中进行观察和行动,引入丰富感官输入(视觉、听觉和空间感)。与虚拟环境不同,物理空间对代理行为提出更多要求,即代理必须具备适应性,生成可执行的运动控制。作者举例说明物理环境的复杂性:智能代理在工厂操作机械臂时,需精确控制力度避免损坏物体,并导航调整移动路径以规避障碍物并优化运动轨迹。

模拟,启动!
作者们认为,一个模拟社会应具有开放性(允许代理自主进出)、持久性(具有随时间推移而发展的连贯轨迹)、情境性(主体在特定环境中的存在和运作)和组织性(拥有类似物理世界的规则与限制)。模拟社会的意义包括:
1. 探索群体智能的能力边界,如代理们共同筹办情人节派对。
2. 加速社会科学的研究,如通过模拟社交网络观察传播学现象。
3. 探讨代理背后的价值观,如模拟道德决策场景。
4. 辅助决策,如模拟政策对社会的影响。

进一步地,作者指出这些模拟可能存在一定风险,包括但不限于:有害社会现象、刻板印象和偏见、隐私安全问题、过度依赖与成瘾性。

前瞻开放问题
论文最后讨论了一些前瞻开放问题:
1. 智能代理与大语言模型的研究如何互相促进、共同发展?大模型在语言理解、决策制定及泛化能力等方面展现出强大潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。
2. LLM-based Agents会带来哪些挑战与隐忧?智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害。作者总结了更多潜在威胁,如非法滥用、失业风险、对人类福祉造成影响等。
3. 代理数量的提升(scaling up)会带来哪些机遇和挑战?在模拟社会中,提升个体数量可显著提升模拟的可信度与真实性,但代理数量上升会导致通信与消息传播问题复杂化,信息的失真、误解或幻觉现象会降低整个模拟系统的效率。
4. 网络上关于LLM-based Agent是否是通向AGI的合适道路的争论。有研究者认为,以GPT-4为代表的大模型已在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开AGI之门的钥匙。但也有研究者认为,自回归语言建模(Auto-regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,如世界模型(World Model),才能通向AGI。
5. 群体智能的演化历程。群体智能是集结众人意见进而转化为决策的过程。但一味通过增加代理数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?
6. 代理即服务(Agent as a Service,AaaS)。由于LLM-based Agents比大模型本身更加复杂,中小型企业或个人更难在本地构建,因此云厂商可以考虑以服务形式将智能代理落地,即Agent-as-a-Service。就像其他的云服务一样,AaaS有潜力为用户提供高灵活性和按需的自助服务。

最新快讯

2026年03月22日

23:07
微新创想:2026年3月22日,西安电子科技大学杭州研究院保宏教授、周赟磊副教授团队在异质纤维电子器件制造领域取得重要突破。该团队提出了一种可扩展的连续液相加工工艺,成功实现了在单根直径仅50微米的纤维上一体化集成信号传输、传感感知与能量传输等多种功能。 这项技术使纤维具备了优异的柔性、可编织性以及良好的生物兼容性,为智能穿戴设备和植入式医疗设备的发展提供了...
23:07
微新创想:2021年1月,澳大利亚摄影师约书亚·罗泽尔斯在西澳尖峰石阵拍摄了343张包含卫星轨迹的照片,最终合成出名为《拥挤的天空》的作品。这组照片生动地展现了近地轨道上卫星数量激增所带来的光污染现象。 微新创想:随着科技的发展,越来越多的人造卫星被送入地球轨道,为全球通信和导航提供了便利。然而,这种增长也带来了意想不到的环境影响。截至2026年3月,Spa...
21:58
微新创想:2026年3月22日晚,雅迪在北京举行冠能旗舰新品发布会,正式推出冠能i7、星舰Ⅱ和白鲨Ⅱ三大系列电动车。此次发布会不仅展示了雅迪在电动出行领域的最新成果,也进一步巩固了其在智能电动车市场的领先地位。 新品覆盖4999元至21999元价格区间,满足不同消费者的需求。从入门级到高端车型,雅迪为市场提供了多样化的选择,确保每一位用户都能找到适合自己的产...
20:57
微新创想:北京时间3月22日20时,俄罗斯“联盟-2.1a”火箭在哈萨克斯坦拜科努尔航天发射场成功升空,执行一项重要的货运任务。此次任务由“进步MS-33”货运飞船负责,标志着该发射工位在经历去年11月联盟号事故导致平台坍塌后,完成修复并重新投入使用。 本次发射是今年的首次货运任务,具有重要的象征意义。飞船携带了总计2509公斤的物资,包括维修设备、实验装置...
20:57
微新创想:3月21日,MegaCrit Games就《杀戮尖塔2》Beta版玩家反馈发布官方说明。公司表示,后续1-2年将高频迭代平衡性,所有改动均基于F2提交反馈、后台数据及设计初衷。 Beta分支专用于测试实验性内容,稳定后才并入正式版。开发团队特别致谢中国玩家社区,并确认每条F2建议均被审阅。 本作3月6日Steam国区上线,定价88元,首周销量破30...
20:57
微新创想:2026年3月,前特斯拉AI负责人安德里杰·卡尔帕西披露了一个令人震惊的发现。他耗时数月手动调试GPT-2训练配置后,仅用一个晚上便由自主智能体发现了人类遗漏的多项关键调优参数。这一结果展示了人工智能在优化过程中的巨大潜力。 自主智能体通过系统性搜索识别出参数间复杂的交互关系。这种能力使得它能够超越人类的直觉和经验,找到更优的解决方案。与传统的手动...
20:27
微新创想:2026年3月22日,吉利汽车正式开启新一代长续航增程SUV博越REV预售,起售价12.79万元。这款车型在新能源市场中展现出强大的竞争力,凭借其先进的技术和出色的性能,吸引了众多消费者的关注。 该车搭载了吉利自主研发的超级铂金增程系统与神盾金砖电池,实现了CLTC纯电续航375公里的优异表现。在满油满电状态下,综合续航里程更是高达1525公里,为...
20:27
微新创想:2026年3月22日,华工科技在互动平台披露,其400G、800G光模块产品国内需求增长明确,已向主要互联网及设备厂商批量交付 产品正由400G向800G升级,预计800G占比约40% 海外市场方面,400G/800G产品出口增长显著,1.6T光模块已实现量产,高速光模块交付能力持续提升
20:27
微新创想:零跑汽车于2026年2月9日向全体员工发布廉洁合规通知,正式启动为期30天的“主动纠错窗口期”,鼓励员工主动上交过往违规所得并予以免责。这一举措旨在强化公司内部治理,提升员工的合规意识。 据内部消息证实,已有超过千万元的违规款项被员工主动上缴。公司表示,对于主动纠错的员工,将给予免责处理,体现了对员工的包容与信任。 对于逾期未进行纠错的员工,公司将...
20:27
微新创想:3月22日,阿里巴巴集团主席蔡崇信在北京出席中国发展高层论坛2026年年会并发表演讲。他系统阐释了中国人工智能发展的三大核心驱动力。这三大驱动力分别是国家电力基础设施战略支撑、开源共享技术生态以及‘制造业+AI’所带来的海量工业数据优势。 蔡崇信强调,人工智能的发展关键在于应用的普及。他指出,技术的真正价值在于其能够广泛服务于社会各个层面,从而实现...
19:56
微新创想:2026年3月22日,微信公关总监@微信粥姨在微博回应网友提问,确认正与各大安卓应用商店沟通接入系统级消息推送。此举将替代当前依赖Google FCM及后台常驻服务的推送机制,有望降低内存占用与电池消耗。 微新创想:该系统级消息推送功能的引入,意味着微信将不再依赖第三方推送服务,而是直接与安卓系统进行对接。这不仅能够提升消息推送的效率,还能优化用户...
19:55
微新创想:2026年3月22日,国家互联网应急中心(CNCERT)与中国网络空间安全协会联合发布《OpenClaw安全使用实践指南》 该指南面向普通用户、企业用户、云服务商及技术开发者,针对OpenClaw因高权限能力带来的远程接管、数据泄露等风险,提出分级防护建议 普通用户被建议使用虚拟机或专用设备隔离运行、禁用管理员权限、不处理隐私数据、及时更新版本 企...