智能代理能否成为开启通用人工智能(AGI)大门的钥匙?复旦大学自然语言处理团队(FudanNLP)最新发布的LLM-based Agents综述论文,以长达86页的篇幅和600余篇参考文献,全面探讨了基于大型语言模型的智能代理现状与发展。从AI Agent的历史演进出发,论文系统梳理了LLM-based Agent的背景、构成、应用场景及备受关注的代理社会,并深入探讨了相关领域的前瞻开放问题,为未来发展趋势提供了重要参考。论文链接:https://arxiv.org/pdf/2309.07864.pdf LLM-based Agent论文列表:https://github.com/WooooDyy/LLM-Agent-Paper-List 团队成员将为每篇相关论文添加「一句话概括」,欢迎Star仓库。

研究背景
长期以来,研究者们致力于打造与人类相当甚至超越人类水平的通用人工智能(AGI)。早在1950年代,艾伦·图灵就将「智能」的概念扩展至人工实体,并提出著名的图灵测试。这些人工智能实体被称为「代理」(Agent)。这一概念源于哲学,描述了拥有欲望、信念、意图及行动能力的实体。在人工智能领域,代理被赋予新的含义:具有自主性、反应性、积极性和社交能力的智能实体。由于「Agent」术语的中文译名尚未形成共识,学者们或将其译为智能体、行为体、代理或智能代理,本文统一使用「代理」和「智能代理」。

从那时起,代理的设计成为人工智能社区的焦点。然而,过去的研究主要集中在增强代理的特定能力,如符号推理或特定任务的掌握(国际象棋、围棋等)。这些研究更注重算法设计和训练策略,而忽视了模型固有的通用能力发展,如知识记忆、长期规划、有效泛化和高效互动。事实证明,增强模型固有能力是推动智能代理进一步发展的关键。

大型语言模型(LLMs)的出现为智能代理发展带来了新希望。若将NLP到AGI的发展路线分为五级:语料库、互联网、感知、具身和社会属性,目前的大型语言模型已达到第二级,具有互联网规模的文本输入和输出。在此基础上,赋予LLM-based Agents感知空间和行动空间,它们将迈向第三、第四级。进一步地,多个代理通过互动、合作解决复杂任务或反映现实社会行为,则有望达到第五级——代理社会。作者们设想了一个由智能代理构成的和谐社会,人类也可参与其中。场景取材自《原神》中的海灯节。

一个Agent的诞生
拥有大模型加持的智能代理会是什么样?作者们受达尔文「适者生存」法则启发,提出了基于大模型的智能代理通用框架。个体若要在社会中生存,必须学会适应环境,因此需要认知能力,并能够感知、应对外界变化。同样,智能代理的框架也由三部分组成:控制端(Brain)、感知端(Perception)和行动端(Action)。

控制端(Brain)
通常由LLMs构成,是智能代理的核心。它不仅存储记忆和知识,还承担信息处理、决策等功能,可呈现推理和计划过程,应对未知任务,体现智能代理的泛化性和迁移性。

感知端(Perception)
将智能代理的感知空间从纯文本拓展至文本、视觉和听觉等多模态领域,使其更有效地获取和利用环境信息。

行动端(Action)
除了常规文本输出,还赋予代理具身能力和使用工具的能力,使其更好地适应环境变化,通过反馈与环境交互,甚至塑造环境。

LLM-based Agent的概念框架包含三部分:控制端(Brain)、感知端(Perception)和行动端(Action)。作者们以人类询问是否会下雨为例说明LLM-based Agent的工作流程:感知端(Perception)将指令转换为LLMs可理解的表示,控制端(Brain)根据天气和天气预报进行推理和行动规划,行动端(Action)做出响应并将雨伞递给人类。通过重复这一过程,智能代理可不断获得反馈并与环境交互。

控制端(Brain)的五个能力
1. 自然语言交互:LLMs强大的自然语言生成和理解能力,使智能代理能通过自然语言与外界多轮交互,实现目标。具体分为高质量文本生成和言外之意的理解。
2. 知识:基于大批量语料训练的LLMs,拥有存储海量知识的能力,包括语言知识、常识知识和专业技能知识。
3. 记忆:记忆模块储存代理过往的观察、思考和行动序列,通过特定记忆机制,代理可反思并应用先前策略,借鉴经验适应陌生环境。提升记忆能力的方法包括扩展Backbone架构长度限制、总结记忆和压缩记忆。
4. 推理&规划:推理能力对智能代理进行决策、分析等复杂任务至关重要。具体到LLMs,是以思维链(CoT)为代表的提示方法。规划则是面对大型挑战时常用的策略,帮助代理组织思维、设定目标并确定实现目标的步骤。
5. 迁移性&泛化性:拥有世界知识的LLMs赋予智能代理强大的迁移与泛化能力。通过指令微调的大模型在zero-shot测试中表现良好,在许多任务上取得不亚于专家模型的成绩。此外,情景学习和持续学习也为代理在现实世界中的应用提供了更多可能性。

感知端(Perception)
人类通过多模态方式感知世界,因此研究者们对LLM-based Agents抱有同样期待。多模态感知能加深代理对工作环境的理解,显著提升其通用性。具体包括:
1. 文本输入:作为LLMs最基础的能力,此处不再赘述。
2. 视觉输入:LLMs本身不具备视觉感知能力,但可通过将视觉输入转为文本描述(Image Captioning)或对视觉信息进行编码表示来理解。
3. 听觉输入:听觉也是人类感知的重要组成部分。LLMs可通过级联方式调用现有工具集或专家模型感知音频信息,也可通过频谱图(Spectrogram)进行直观表示。
4. 其他输入:现实世界中的信息远不止文本、视觉和听觉。未来,智能代理或将配备触觉、嗅觉等感知模块,并感受环境温度、湿度、明暗程度,采取更Environment-aware的行动。此外,还可引入对更广阔整体环境的感知模块。

行动端(Action)
在大脑做出分析、决策后,代理还需做出行动以适应或改变环境:
1. 文本输出:作为LLMs最基础的能力,此处不再赘述。
2. 工具使用:工具作为使用者能力的扩展,可帮助代理在专业性、事实性、可解释性等方面提供帮助,并扩展智能代理的行动空间。目前主要的工具学习方法包括从演示中学习和从反馈中学习。
3. 具身行动:具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动被视为虚拟智能与物理现实的互通桥梁。根据代理在任务中的自主程度,原子行动包括Observation(定位自身位置、感知对象物品和获取环境信息)、Manipulation(完成抓取、推动等操作任务)和Navigation(根据任务目标变换自身位置并更新自身状态)。通过组合这些原子行动,代理可完成更复杂的任务。

Agent in Practice:多样化的应用场景
当下,LLM-based Agents已展现出令人瞩目的多样性和强大性能。AutoGPT、MetaGPT、CAMEL以及GPT Engineer等应用实例正在以前所未有的速度蓬勃发展。作者们讨论了Agent in Practice的设计原则:
1. 帮助用户从日常任务、重复劳动中解脱出来,减轻人类工作压力,提高解决任务的效率。
2. 不再需要用户提出显式的低级指令,代理可完全自主地分析、规划、解决问题。
3. 解放双手后,尝试解放大脑:在前沿科学领域充分发挥潜能,完成创新性、探索性工作。

基于此,代理的应用有三种范式:单代理、多代理、人机交互。
1. 单代理场景:接受人类自然语言命令,执行日常任务的智能代理备受用户青睐。作者们将其应用场景划分为三个层次:任务导向、创新导向、生命周期导向。
– 任务导向:代理帮助人类处理日常基本任务,需具备基本指令理解、任务分解、与环境交互的能力。具体可分为模拟网络环境与模拟生活场景。
– 创新导向:代理在前沿科学领域展现自主探究潜力,虽受专业领域复杂性和训练数据缺乏阻碍,但已在化学、材料、计算机等领域取得进展。
– 生命周期导向:代理在开放世界中不断探索、学习新技能并长久生存,以《我的世界》游戏为例展开介绍。

2. 多代理场景:早在1986年,Marvin Minsky就预言智力是在许多较小、特定功能的代理相互作用中产生的。多代理系统主要关注代理们如何有效协调并协作解决问题。作者们将多代理交互划分为两种形式:
– 合作型互动:作为实际应用中最广泛的类型,合作型代理系统可提高任务效率、共同改进决策。具体分为无序合作(代理自由表达观点)和有序合作(代理遵循规则逐一发表观点)。
– 对抗型互动:智能代理以针锋相对的方式进行互动,通过竞争、谈判、辩论等形式,抛弃错误信念,反思行为或推理过程,提升系统响应质量。

3. 人机交互场景:智能代理通过与人类交互,合作完成任务。一方面,代理的动态学习能力需要沟通交流支持;另一方面,代理系统在可解释性上的不足需要人类参与规范与监督。作者们将其划分为两种模式:
– Instructor-Executor模式:人类作为指导者,给出指令、反馈意见;代理作为执行者,逐步调整、优化。这种模式在教育、医疗、商业等领域得到广泛应用。
– Equal Partnership模式:代理在与人类交流中表现出共情能力,或以平等身份参与任务执行。智能代理展现出日常生活应用潜力,有望融入人类社会。

Agent 社会:从个性到社会性
长期以来,研究人员憧憬构建「交互式的人工社会」,从沙盒游戏《模拟人生》到「元宇宙」,人们对模拟社会的定义可概述为:环境+环境中生存、互动的个体。作者们用一张图描述了Agent社会的概念框架,分为两个关键部分:代理和环境。
左侧部分:在个体层面上,代理表现出多种内化行为(如计划、推理、反思),并显现内在人格特征(认知、情感、性格)。
中间部分:单个代理可与其他代理个体组成群体,共同展现合作等群体行为(如协同合作)。
右侧部分:环境形式可以是虚拟沙盒环境或真实物理世界,要素包括人类参与者和各类可用资源。对于单个代理而言,其他代理也属于环境的一部分。

整体互动:代理们通过感知外界环境、采取行动,积极参与整个交互过程。代理的社会行为与人格
社会行为:从社会角度出发,可分为个体行为(以感知为代表的输入、行动为代表的输出、代理自身的内化行为)和群体行为(以协作为代表的积极行为、以冲突为代表的消极行为、以从众、旁观为代表的中立行为)。
人格:包括认知、情感和性格。代理通过与群体和环境的互动中逐渐塑造人格,展现出「类人智能」。
– 认知(Cognitive abilities):涵盖代理获取和理解知识的过程,研究表明,基于LLM的代理在某些方面能表现出类似于人类的深思熟虑和智力水平。
– 情感(Emotional intelligence):涉及主观感受和情绪状态(如喜怒乐悲),以及表现出同情和共情的能力。
– 性格(Character portrayal):研究人员利用大五人格、MBTI测试等成熟评测方式,探究LLMs的性格特征多样性。

模拟社会的运行环境
代理社会不仅由独立的个体构成,还包括与其交互的环境。环境对代理的感知、行动和互动产生影响,反过来,代理也通过行为和决策改变环境状态。对于单个代理而言,环境包括其他自主代理、人类以及可使用的资源。作者们探讨了环境的三种类型:
1. 基于文本的环境:由于LLMs主要依赖语言作为输入和输出格式,因此基于文本的环境是代理最自然的操作平台。文本环境提供语义和背景知识,代理依赖文本资源来感知、推理和采取行动。
2. 虚拟沙盒环境:沙盒是指可受控且隔离的环境,常用于软件测试和病毒分析。代理社会的虚拟沙盒环境作为模拟社会互动和行为仿真的平台,其特点包括可视化(可用2D图形界面或3D建模展示世界)和可扩展性(可构建和部署各种场景进行实验)。
3. 真实的物理环境:物理环境由实际物体和空间组成,代理在其中进行观察和行动,引入丰富感官输入(视觉、听觉和空间感)。与虚拟环境不同,物理空间对代理行为提出更多要求,即代理必须具备适应性,生成可执行的运动控制。作者举例说明物理环境的复杂性:智能代理在工厂操作机械臂时,需精确控制力度避免损坏物体,并导航调整移动路径以规避障碍物并优化运动轨迹。

模拟,启动!
作者们认为,一个模拟社会应具有开放性(允许代理自主进出)、持久性(具有随时间推移而发展的连贯轨迹)、情境性(主体在特定环境中的存在和运作)和组织性(拥有类似物理世界的规则与限制)。模拟社会的意义包括:
1. 探索群体智能的能力边界,如代理们共同筹办情人节派对。
2. 加速社会科学的研究,如通过模拟社交网络观察传播学现象。
3. 探讨代理背后的价值观,如模拟道德决策场景。
4. 辅助决策,如模拟政策对社会的影响。

进一步地,作者指出这些模拟可能存在一定风险,包括但不限于:有害社会现象、刻板印象和偏见、隐私安全问题、过度依赖与成瘾性。

前瞻开放问题
论文最后讨论了一些前瞻开放问题:
1. 智能代理与大语言模型的研究如何互相促进、共同发展?大模型在语言理解、决策制定及泛化能力等方面展现出强大潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。
2. LLM-based Agents会带来哪些挑战与隐忧?智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害。作者总结了更多潜在威胁,如非法滥用、失业风险、对人类福祉造成影响等。
3. 代理数量的提升(scaling up)会带来哪些机遇和挑战?在模拟社会中,提升个体数量可显著提升模拟的可信度与真实性,但代理数量上升会导致通信与消息传播问题复杂化,信息的失真、误解或幻觉现象会降低整个模拟系统的效率。
4. 网络上关于LLM-based Agent是否是通向AGI的合适道路的争论。有研究者认为,以GPT-4为代表的大模型已在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开AGI之门的钥匙。但也有研究者认为,自回归语言建模(Auto-regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,如世界模型(World Model),才能通向AGI。
5. 群体智能的演化历程。群体智能是集结众人意见进而转化为决策的过程。但一味通过增加代理数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?
6. 代理即服务(Agent as a Service,AaaS)。由于LLM-based Agents比大模型本身更加复杂,中小型企业或个人更难在本地构建,因此云厂商可以考虑以服务形式将智能代理落地,即Agent-as-a-Service。就像其他的云服务一样,AaaS有潜力为用户提供高灵活性和按需的自助服务。

最新快讯

2025年11月18日

21:42
2025年11月18日,知名财税服务提供商Intuit正式宣布与人工智能巨头OpenAI达成一项具有里程碑意义的长期战略合作协议,根据协议条款,双方将共同投入超过1亿美元资源进行深度合作。此次合作的核心是将Intuit旗下TurboTax、Credit Karma、QuickBooks和Mailchimp等标志性财务应用无缝集成到OpenAI的ChatGPT...
21:42
2025年11月18日,OpenAI在其官方状态页面发布重要通知,宣布旗下ChatGPT模型及平台网站遭遇部分服务中断。此次故障导致大量用户无法正常访问和使用核心功能,引发广泛关注。目前,OpenAI技术团队已全面启动应急响应机制,正全力排查故障原因。据最新消息,团队正在加紧修复过程中,并承诺将第一时间向公众同步进展情况。此次服务中断对全球数百万依赖Chat...
21:42
2025年11月18日 Roblox平台重磅宣布一项重要安全举措将在澳大利亚、新西兰及荷兰等关键市场全面推行强制性年龄验证机制这一创新举措旨在为全球未成年玩家构建更坚实的数字安全屏障确保平台运营严格遵守当地法律法规对数字内容访问权限的监管要求Roblox将依托先进的身份验证技术精准识别用户真实年龄有效防止未成年人误入含有潜在风险的内容环境该政策自今日起将分阶...
21:42
2025年11月18日,华蓝集团发布一则备受市场关注的公告,宣布公司股权结构将迎来重大调整。公告显示,公司实际控制人雷翔、赵成等人与深圳市栩桐投资合伙企业签署了关键性的股份转让及表决权委托协议。这一系列操作将导致华蓝集团的股权控制权发生根本性变化,进而引发投资者的高度关注。 根据协议具体条款,雷翔、赵成等实控人将合计转让851.13万股股份,占公司总股本的5...
21:42
2025年11月18日,先进数通与超聚变强强联手,正式发布AI企业级知识库一体机,为企业数字化转型注入强劲动力。这款创新产品依托华为昇腾算力底座构建,全面融合华为AI服务器优势,并搭载公司自主研发的A800I A2大模型一体机,实现算力与算法的双重突破。目前该产品已成功落地多个项目,众多客户正积极进行咨询评估、样机测试、招标竞标及合同签署等合作洽谈。先进数通...
21:11
2025年11月18日,中国正式发布虚拟数字人领域首部国家标准——《信息技术 客服型虚拟数字人通用技术要求》(GB/T 46483-2025),标志着我国在该新兴领域的标准化进程迈出重要一步。该标准由工业和信息化部、国家标准化管理委员会等部门联合组织制定,旨在为客服型虚拟数字人的研发与应用提供统一的技术规范,全面提升行业服务质量与用户满意度。 标准详细规定了...
21:11
2026年至2030年,重庆市将全面启动人工智能终端产业创新蝶变行动计划,以实现产业升级与跨越式发展。该计划的核心目标在于全面提升产业综合实力,强化产品供给能力,并构建完善的创新支撑体系。通过系统性的战略布局与资源整合,重庆将着力打造人工智能终端产业新高地,为区域经济高质量发展注入强劲动力。 到2030年,重庆市人工智能终端产业规模将突破3000亿元大关,形...
21:11
2025年11月18日,格尔软件就量子计算机技术突破引发的行业关注作出正式回应。公司方面强调,其自主研发的抗量子密码产品目前正积极参与国内外相关标准的制定工作,并在多个应用场景开展试点测试。这一重要进展标志着我国在量子安全领域取得关键突破,为应对未来量子计算威胁提供了核心技术支撑。 尽管量子计算机技术的快速发展正引发全球安全领域格局的深刻重构,但格尔软件表示...
21:11
2025年11月18日,业界传来重磅消息,三星Galaxy S26 Ultra将迎来影像系统的重大革新,其核心配置将升级为2亿像素ISOCELL HP2主摄。这款备受期待的传感器在光圈设计上实现了突破性提升,从前代的f/1.7升级至f/1.4大光圈,这一改进将显著增强手机在暗光环境下的拍摄表现,让用户在各种光线条件下都能捕捉到清晰明亮的画面。 ISOCE...
21:11
2025年11月18日,中国领先的电池制造商宁德时代在官方互动平台上宣布了一项重要战略布局——公司正加速推进全固态电池的研发进程,其技术实力已跻身全球行业前列。这一突破性进展不仅彰显了宁德时代在新能源领域的领先地位,更预示着电池技术的未来发展方向。据悉,该公司已制定明确的时间表,计划于2027年启动全固态电池的小批量生产,为市场提供更高效、更安全的能源解决方...
21:11
2025年11月18日,小米集团在三季度业绩电话会上就存储成本攀升问题作出了详细回应。面对当前内存价格上涨的市场现状,小米集团总裁卢伟冰深入分析了背后的驱动因素。他指出,内存价格飙升主要源于人工智能技术快速发展所带动的HBM(高带宽内存)需求激增,这属于一个长期性的市场周期性现象。为有效应对潜在的供应链风险,小米已前瞻性地与核心合作伙伴签订了覆盖2026年全...
21:11
2025年11月18日,国家发展改革委正式发布中欧班列高质量发展行动计划,将从四个关键维度全面推动这一国际物流大动脉的升级改造。作为"一带一路"倡议的重要实践平台,中欧班列的高效运行对促进欧亚大陆经贸合作具有战略意义。 首项核心举措是构建多元高效运输通道体系。通过创新监管模式,将全面推行"单一窗口"智慧监管平台,实现通关、查验、运输等环节的数字化协同。同时优...