智能代理能否成为开启通用人工智能(AGI)大门的钥匙?复旦大学自然语言处理团队(FudanNLP)最新发布的LLM-based Agents综述论文,以长达86页的篇幅和600余篇参考文献,全面探讨了基于大型语言模型的智能代理现状与发展。从AI Agent的历史演进出发,论文系统梳理了LLM-based Agent的背景、构成、应用场景及备受关注的代理社会,并深入探讨了相关领域的前瞻开放问题,为未来发展趋势提供了重要参考。论文链接:https://arxiv.org/pdf/2309.07864.pdf LLM-based Agent论文列表:https://github.com/WooooDyy/LLM-Agent-Paper-List 团队成员将为每篇相关论文添加「一句话概括」,欢迎Star仓库。

研究背景
长期以来,研究者们致力于打造与人类相当甚至超越人类水平的通用人工智能(AGI)。早在1950年代,艾伦·图灵就将「智能」的概念扩展至人工实体,并提出著名的图灵测试。这些人工智能实体被称为「代理」(Agent)。这一概念源于哲学,描述了拥有欲望、信念、意图及行动能力的实体。在人工智能领域,代理被赋予新的含义:具有自主性、反应性、积极性和社交能力的智能实体。由于「Agent」术语的中文译名尚未形成共识,学者们或将其译为智能体、行为体、代理或智能代理,本文统一使用「代理」和「智能代理」。

从那时起,代理的设计成为人工智能社区的焦点。然而,过去的研究主要集中在增强代理的特定能力,如符号推理或特定任务的掌握(国际象棋、围棋等)。这些研究更注重算法设计和训练策略,而忽视了模型固有的通用能力发展,如知识记忆、长期规划、有效泛化和高效互动。事实证明,增强模型固有能力是推动智能代理进一步发展的关键。

大型语言模型(LLMs)的出现为智能代理发展带来了新希望。若将NLP到AGI的发展路线分为五级:语料库、互联网、感知、具身和社会属性,目前的大型语言模型已达到第二级,具有互联网规模的文本输入和输出。在此基础上,赋予LLM-based Agents感知空间和行动空间,它们将迈向第三、第四级。进一步地,多个代理通过互动、合作解决复杂任务或反映现实社会行为,则有望达到第五级——代理社会。作者们设想了一个由智能代理构成的和谐社会,人类也可参与其中。场景取材自《原神》中的海灯节。

一个Agent的诞生
拥有大模型加持的智能代理会是什么样?作者们受达尔文「适者生存」法则启发,提出了基于大模型的智能代理通用框架。个体若要在社会中生存,必须学会适应环境,因此需要认知能力,并能够感知、应对外界变化。同样,智能代理的框架也由三部分组成:控制端(Brain)、感知端(Perception)和行动端(Action)。

控制端(Brain)
通常由LLMs构成,是智能代理的核心。它不仅存储记忆和知识,还承担信息处理、决策等功能,可呈现推理和计划过程,应对未知任务,体现智能代理的泛化性和迁移性。

感知端(Perception)
将智能代理的感知空间从纯文本拓展至文本、视觉和听觉等多模态领域,使其更有效地获取和利用环境信息。

行动端(Action)
除了常规文本输出,还赋予代理具身能力和使用工具的能力,使其更好地适应环境变化,通过反馈与环境交互,甚至塑造环境。

LLM-based Agent的概念框架包含三部分:控制端(Brain)、感知端(Perception)和行动端(Action)。作者们以人类询问是否会下雨为例说明LLM-based Agent的工作流程:感知端(Perception)将指令转换为LLMs可理解的表示,控制端(Brain)根据天气和天气预报进行推理和行动规划,行动端(Action)做出响应并将雨伞递给人类。通过重复这一过程,智能代理可不断获得反馈并与环境交互。

控制端(Brain)的五个能力
1. 自然语言交互:LLMs强大的自然语言生成和理解能力,使智能代理能通过自然语言与外界多轮交互,实现目标。具体分为高质量文本生成和言外之意的理解。
2. 知识:基于大批量语料训练的LLMs,拥有存储海量知识的能力,包括语言知识、常识知识和专业技能知识。
3. 记忆:记忆模块储存代理过往的观察、思考和行动序列,通过特定记忆机制,代理可反思并应用先前策略,借鉴经验适应陌生环境。提升记忆能力的方法包括扩展Backbone架构长度限制、总结记忆和压缩记忆。
4. 推理&规划:推理能力对智能代理进行决策、分析等复杂任务至关重要。具体到LLMs,是以思维链(CoT)为代表的提示方法。规划则是面对大型挑战时常用的策略,帮助代理组织思维、设定目标并确定实现目标的步骤。
5. 迁移性&泛化性:拥有世界知识的LLMs赋予智能代理强大的迁移与泛化能力。通过指令微调的大模型在zero-shot测试中表现良好,在许多任务上取得不亚于专家模型的成绩。此外,情景学习和持续学习也为代理在现实世界中的应用提供了更多可能性。

感知端(Perception)
人类通过多模态方式感知世界,因此研究者们对LLM-based Agents抱有同样期待。多模态感知能加深代理对工作环境的理解,显著提升其通用性。具体包括:
1. 文本输入:作为LLMs最基础的能力,此处不再赘述。
2. 视觉输入:LLMs本身不具备视觉感知能力,但可通过将视觉输入转为文本描述(Image Captioning)或对视觉信息进行编码表示来理解。
3. 听觉输入:听觉也是人类感知的重要组成部分。LLMs可通过级联方式调用现有工具集或专家模型感知音频信息,也可通过频谱图(Spectrogram)进行直观表示。
4. 其他输入:现实世界中的信息远不止文本、视觉和听觉。未来,智能代理或将配备触觉、嗅觉等感知模块,并感受环境温度、湿度、明暗程度,采取更Environment-aware的行动。此外,还可引入对更广阔整体环境的感知模块。

行动端(Action)
在大脑做出分析、决策后,代理还需做出行动以适应或改变环境:
1. 文本输出:作为LLMs最基础的能力,此处不再赘述。
2. 工具使用:工具作为使用者能力的扩展,可帮助代理在专业性、事实性、可解释性等方面提供帮助,并扩展智能代理的行动空间。目前主要的工具学习方法包括从演示中学习和从反馈中学习。
3. 具身行动:具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动被视为虚拟智能与物理现实的互通桥梁。根据代理在任务中的自主程度,原子行动包括Observation(定位自身位置、感知对象物品和获取环境信息)、Manipulation(完成抓取、推动等操作任务)和Navigation(根据任务目标变换自身位置并更新自身状态)。通过组合这些原子行动,代理可完成更复杂的任务。

Agent in Practice:多样化的应用场景
当下,LLM-based Agents已展现出令人瞩目的多样性和强大性能。AutoGPT、MetaGPT、CAMEL以及GPT Engineer等应用实例正在以前所未有的速度蓬勃发展。作者们讨论了Agent in Practice的设计原则:
1. 帮助用户从日常任务、重复劳动中解脱出来,减轻人类工作压力,提高解决任务的效率。
2. 不再需要用户提出显式的低级指令,代理可完全自主地分析、规划、解决问题。
3. 解放双手后,尝试解放大脑:在前沿科学领域充分发挥潜能,完成创新性、探索性工作。

基于此,代理的应用有三种范式:单代理、多代理、人机交互。
1. 单代理场景:接受人类自然语言命令,执行日常任务的智能代理备受用户青睐。作者们将其应用场景划分为三个层次:任务导向、创新导向、生命周期导向。
– 任务导向:代理帮助人类处理日常基本任务,需具备基本指令理解、任务分解、与环境交互的能力。具体可分为模拟网络环境与模拟生活场景。
– 创新导向:代理在前沿科学领域展现自主探究潜力,虽受专业领域复杂性和训练数据缺乏阻碍,但已在化学、材料、计算机等领域取得进展。
– 生命周期导向:代理在开放世界中不断探索、学习新技能并长久生存,以《我的世界》游戏为例展开介绍。

2. 多代理场景:早在1986年,Marvin Minsky就预言智力是在许多较小、特定功能的代理相互作用中产生的。多代理系统主要关注代理们如何有效协调并协作解决问题。作者们将多代理交互划分为两种形式:
– 合作型互动:作为实际应用中最广泛的类型,合作型代理系统可提高任务效率、共同改进决策。具体分为无序合作(代理自由表达观点)和有序合作(代理遵循规则逐一发表观点)。
– 对抗型互动:智能代理以针锋相对的方式进行互动,通过竞争、谈判、辩论等形式,抛弃错误信念,反思行为或推理过程,提升系统响应质量。

3. 人机交互场景:智能代理通过与人类交互,合作完成任务。一方面,代理的动态学习能力需要沟通交流支持;另一方面,代理系统在可解释性上的不足需要人类参与规范与监督。作者们将其划分为两种模式:
– Instructor-Executor模式:人类作为指导者,给出指令、反馈意见;代理作为执行者,逐步调整、优化。这种模式在教育、医疗、商业等领域得到广泛应用。
– Equal Partnership模式:代理在与人类交流中表现出共情能力,或以平等身份参与任务执行。智能代理展现出日常生活应用潜力,有望融入人类社会。

Agent 社会:从个性到社会性
长期以来,研究人员憧憬构建「交互式的人工社会」,从沙盒游戏《模拟人生》到「元宇宙」,人们对模拟社会的定义可概述为:环境+环境中生存、互动的个体。作者们用一张图描述了Agent社会的概念框架,分为两个关键部分:代理和环境。
左侧部分:在个体层面上,代理表现出多种内化行为(如计划、推理、反思),并显现内在人格特征(认知、情感、性格)。
中间部分:单个代理可与其他代理个体组成群体,共同展现合作等群体行为(如协同合作)。
右侧部分:环境形式可以是虚拟沙盒环境或真实物理世界,要素包括人类参与者和各类可用资源。对于单个代理而言,其他代理也属于环境的一部分。

整体互动:代理们通过感知外界环境、采取行动,积极参与整个交互过程。代理的社会行为与人格
社会行为:从社会角度出发,可分为个体行为(以感知为代表的输入、行动为代表的输出、代理自身的内化行为)和群体行为(以协作为代表的积极行为、以冲突为代表的消极行为、以从众、旁观为代表的中立行为)。
人格:包括认知、情感和性格。代理通过与群体和环境的互动中逐渐塑造人格,展现出「类人智能」。
– 认知(Cognitive abilities):涵盖代理获取和理解知识的过程,研究表明,基于LLM的代理在某些方面能表现出类似于人类的深思熟虑和智力水平。
– 情感(Emotional intelligence):涉及主观感受和情绪状态(如喜怒乐悲),以及表现出同情和共情的能力。
– 性格(Character portrayal):研究人员利用大五人格、MBTI测试等成熟评测方式,探究LLMs的性格特征多样性。

模拟社会的运行环境
代理社会不仅由独立的个体构成,还包括与其交互的环境。环境对代理的感知、行动和互动产生影响,反过来,代理也通过行为和决策改变环境状态。对于单个代理而言,环境包括其他自主代理、人类以及可使用的资源。作者们探讨了环境的三种类型:
1. 基于文本的环境:由于LLMs主要依赖语言作为输入和输出格式,因此基于文本的环境是代理最自然的操作平台。文本环境提供语义和背景知识,代理依赖文本资源来感知、推理和采取行动。
2. 虚拟沙盒环境:沙盒是指可受控且隔离的环境,常用于软件测试和病毒分析。代理社会的虚拟沙盒环境作为模拟社会互动和行为仿真的平台,其特点包括可视化(可用2D图形界面或3D建模展示世界)和可扩展性(可构建和部署各种场景进行实验)。
3. 真实的物理环境:物理环境由实际物体和空间组成,代理在其中进行观察和行动,引入丰富感官输入(视觉、听觉和空间感)。与虚拟环境不同,物理空间对代理行为提出更多要求,即代理必须具备适应性,生成可执行的运动控制。作者举例说明物理环境的复杂性:智能代理在工厂操作机械臂时,需精确控制力度避免损坏物体,并导航调整移动路径以规避障碍物并优化运动轨迹。

模拟,启动!
作者们认为,一个模拟社会应具有开放性(允许代理自主进出)、持久性(具有随时间推移而发展的连贯轨迹)、情境性(主体在特定环境中的存在和运作)和组织性(拥有类似物理世界的规则与限制)。模拟社会的意义包括:
1. 探索群体智能的能力边界,如代理们共同筹办情人节派对。
2. 加速社会科学的研究,如通过模拟社交网络观察传播学现象。
3. 探讨代理背后的价值观,如模拟道德决策场景。
4. 辅助决策,如模拟政策对社会的影响。

进一步地,作者指出这些模拟可能存在一定风险,包括但不限于:有害社会现象、刻板印象和偏见、隐私安全问题、过度依赖与成瘾性。

前瞻开放问题
论文最后讨论了一些前瞻开放问题:
1. 智能代理与大语言模型的研究如何互相促进、共同发展?大模型在语言理解、决策制定及泛化能力等方面展现出强大潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。
2. LLM-based Agents会带来哪些挑战与隐忧?智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害。作者总结了更多潜在威胁,如非法滥用、失业风险、对人类福祉造成影响等。
3. 代理数量的提升(scaling up)会带来哪些机遇和挑战?在模拟社会中,提升个体数量可显著提升模拟的可信度与真实性,但代理数量上升会导致通信与消息传播问题复杂化,信息的失真、误解或幻觉现象会降低整个模拟系统的效率。
4. 网络上关于LLM-based Agent是否是通向AGI的合适道路的争论。有研究者认为,以GPT-4为代表的大模型已在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开AGI之门的钥匙。但也有研究者认为,自回归语言建模(Auto-regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,如世界模型(World Model),才能通向AGI。
5. 群体智能的演化历程。群体智能是集结众人意见进而转化为决策的过程。但一味通过增加代理数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?
6. 代理即服务(Agent as a Service,AaaS)。由于LLM-based Agents比大模型本身更加复杂,中小型企业或个人更难在本地构建,因此云厂商可以考虑以服务形式将智能代理落地,即Agent-as-a-Service。就像其他的云服务一样,AaaS有潜力为用户提供高灵活性和按需的自助服务。

最新快讯

2025年11月04日

22:59
微新创想11月4日最新消息,知名数码博主数码闲聊站率先爆料,备受关注的天玑8系中端性能机预计将在2024年1月正式亮相,这一消息也间接证实了备受期待的REDMI Turbo 5将在同月发布。据博主透露,REDMI Turbo 5将首发搭载全新天玑8500芯片,这颗备受瞩目的中端旗舰芯片采用台积电先进的4nm工艺制程,其CPU部分采用8核A725全大核设计,超...
22:59
《流浪地球3》于4月15日正式拉开拍摄帷幕,导演郭帆携手主演吴京、沈腾共同出席了盛大的开机仪式。这部备受瞩目的科幻巨制预计将于2027年大年初一与全球观众见面,开启新一轮的宇宙冒险。 近日,吴京在社交平台上惊喜发布了身穿宇航服的剧照,并配文"生无可恋3",瞬间引发全网热议。这一细节被广泛解读为吴京饰演的角色刘培强将在第三部中强势回归。作为系列前作中牺牲的...
22:59
近日,关于“一汽集团将通过定向增发收购零跑汽车并成为其第一大股东”的传闻在业界引发广泛关注。对此,零跑汽车方面及创始人朱江明均通过官方渠道明确辟谣,强调该消息纯属不实信息。尽管此前有媒体爆料称该收购方案已获相关部门批准,并计划于11月17日正式官宣,但零跑方面始终保持着谨慎的态度。 目前,零跑汽车与一汽集团的合作仍聚焦于战略层面,双方在多个领域已取得显著进展...
22:59
2025年11月4日,一则关于广州地区多家黄金品牌门店下架金条的传闻引发市场广泛关注。为核实情况,记者当天展开实地走访调查,重点探访了广州六福珠宝、周大福、老凤祥等知名黄金零售机构的门店。调查结果显示,尽管市场存在价格波动,但投资金条的销售并未中断,各门店均保持正常运营状态。 此前网络流传的信息称,部分商家因金价过高而下架金条,甚至有品牌金条单价突破12...
22:59
2025年11月4日,备受瞩目的清越科技正式对外宣布一项重要战略举措——由董事长提议,公司将以自有资金实施股份回购计划。据悉,此次回购的总额预计将在1000万元至2000万元人民币之间,这笔资金将专项用于股权激励计划或市值管理策略的推进。回购操作将通过二级市场的集中竞价方式进行,整个回购周期预计为公告披露之日起的6个月内完成。 此次股份回购是清越科技增强投资...
22:28
2025年10月下旬,小鹏汽车正式宣布重启Robotaxi项目,并同步启动内部人才转岗计划。为加速L4级别自动驾驶车型明年量产进程,公司不惜高薪引进多家知名L4企业核心技术负责人,以此彰显对该战略项目的决心与重视。据行业消息透露,小鹏在Robotaxi商业化路径上倾向于采取"轻量化运营"模式,将投入产出比作为核心考量指标,着力避免陷入重资产运营的困境。这一系...
22:28
近日,国际游戏界传来重大消息,据多家权威媒体报道,美国专利商标局局长约翰·斯夸尔斯正式下令对任天堂2019年成功注册的“召唤与战斗”游戏专利进行全面重新审查。这一举措迅速引发行业震动,因为该专利核心涉及允许玩家在游戏中自由选择手动操控或自动进行战斗的机制。然而,局长在审查指令中明确指出,早在2002年,科乐美公司就已成功注册了包含相同创新机制的专利。这一历史...
22:28
近期网络上关于“iQOO Neo11与Neo10 Pro+未配备距离感应器”的传闻引发广泛关注,iQOO Neo产品经理罗佳慧迅速响应,通过官方渠道进行了权威澄清。她在微博上发布了一组官网截图,清晰展示了两款机型均支持接近感应器功能的相关说明,有力驳斥了不实信息的传播。为增强用户信任,罗佳慧还贴心分享了实用检测方法:只需用高清摄像头对准Neo11已录入指纹的...
22:28
大疆正式官宣,将于11月13日20:00举行新品发布会,引发行业高度关注。预热视频中首次曝光的可变光圈镜头设计,已暗指这款备受期待的新品——Osmo Action 6运动相机即将登场。根据多方爆料,这款新一代旗舰将突破技术壁垒,搭载与索尼联合研发的1/1.1英寸堆栈式CMOS传感器,感光面积较前代大幅提升近40%,显著增强暗光环境下的拍摄表现。同时,该传感器...
22:28
2025年第三季度,天际股份六氟磷酸锂生产成本稳定在5至6万元每吨的区间。这一关键数据通过公司官方互动平台正式披露,不仅彰显了其在核心原材料生产控制方面的卓越能力,更揭示了当前工艺技术与原料采购策略下的综合制造支出。作为锂电池关键电解质材料,六氟磷酸锂的成本直接影响行业利润格局,天际股份的透明披露无疑为市场提供了重要参考。该成本区间基于当前技术成熟度与供应链...
22:28
2025年11月4日,Spotify在其备受瞩目的电话会议中释放出重要信号,高管团队透露,尽管公司在全球超过150个市场范围内同步上调了订阅服务价格,但用户留存率并未出现任何负面影响。这一轮调价策略广泛覆盖了包括基础版、高级版在内的多数订阅服务,其核心目标在于有效应对日益攀升的内容采购成本,并进一步强化公司的盈利能力。值得注意的是,尽管用户面临更高的价格门槛...
22:28
2025年11月4日,英国石油公司(BP)首席执行官在公开场合明确表示,公司计划于2026年2月正式发布一份全新的产量展望报告。这份备受市场关注的报告将全面反映BP在石油领域的增长潜力与战略布局。根据公司内部评估,凭借现有丰富的资源储备以及灵活的战略调整能力,BP坚信未来产量存在显著的进一步上升空间。此次主动更新产量展望,不仅体现了BP对未来能源市场的信心,...