智能代理能否成为开启通用人工智能(AGI)大门的钥匙?复旦大学自然语言处理团队(FudanNLP)最新发布的LLM-based Agents综述论文,以长达86页的篇幅和600余篇参考文献,全面探讨了基于大型语言模型的智能代理现状与发展。从AI Agent的历史演进出发,论文系统梳理了LLM-based Agent的背景、构成、应用场景及备受关注的代理社会,并深入探讨了相关领域的前瞻开放问题,为未来发展趋势提供了重要参考。论文链接:https://arxiv.org/pdf/2309.07864.pdf LLM-based Agent论文列表:https://github.com/WooooDyy/LLM-Agent-Paper-List 团队成员将为每篇相关论文添加「一句话概括」,欢迎Star仓库。

研究背景
长期以来,研究者们致力于打造与人类相当甚至超越人类水平的通用人工智能(AGI)。早在1950年代,艾伦·图灵就将「智能」的概念扩展至人工实体,并提出著名的图灵测试。这些人工智能实体被称为「代理」(Agent)。这一概念源于哲学,描述了拥有欲望、信念、意图及行动能力的实体。在人工智能领域,代理被赋予新的含义:具有自主性、反应性、积极性和社交能力的智能实体。由于「Agent」术语的中文译名尚未形成共识,学者们或将其译为智能体、行为体、代理或智能代理,本文统一使用「代理」和「智能代理」。

从那时起,代理的设计成为人工智能社区的焦点。然而,过去的研究主要集中在增强代理的特定能力,如符号推理或特定任务的掌握(国际象棋、围棋等)。这些研究更注重算法设计和训练策略,而忽视了模型固有的通用能力发展,如知识记忆、长期规划、有效泛化和高效互动。事实证明,增强模型固有能力是推动智能代理进一步发展的关键。

大型语言模型(LLMs)的出现为智能代理发展带来了新希望。若将NLP到AGI的发展路线分为五级:语料库、互联网、感知、具身和社会属性,目前的大型语言模型已达到第二级,具有互联网规模的文本输入和输出。在此基础上,赋予LLM-based Agents感知空间和行动空间,它们将迈向第三、第四级。进一步地,多个代理通过互动、合作解决复杂任务或反映现实社会行为,则有望达到第五级——代理社会。作者们设想了一个由智能代理构成的和谐社会,人类也可参与其中。场景取材自《原神》中的海灯节。

一个Agent的诞生
拥有大模型加持的智能代理会是什么样?作者们受达尔文「适者生存」法则启发,提出了基于大模型的智能代理通用框架。个体若要在社会中生存,必须学会适应环境,因此需要认知能力,并能够感知、应对外界变化。同样,智能代理的框架也由三部分组成:控制端(Brain)、感知端(Perception)和行动端(Action)。

控制端(Brain)
通常由LLMs构成,是智能代理的核心。它不仅存储记忆和知识,还承担信息处理、决策等功能,可呈现推理和计划过程,应对未知任务,体现智能代理的泛化性和迁移性。

感知端(Perception)
将智能代理的感知空间从纯文本拓展至文本、视觉和听觉等多模态领域,使其更有效地获取和利用环境信息。

行动端(Action)
除了常规文本输出,还赋予代理具身能力和使用工具的能力,使其更好地适应环境变化,通过反馈与环境交互,甚至塑造环境。

LLM-based Agent的概念框架包含三部分:控制端(Brain)、感知端(Perception)和行动端(Action)。作者们以人类询问是否会下雨为例说明LLM-based Agent的工作流程:感知端(Perception)将指令转换为LLMs可理解的表示,控制端(Brain)根据天气和天气预报进行推理和行动规划,行动端(Action)做出响应并将雨伞递给人类。通过重复这一过程,智能代理可不断获得反馈并与环境交互。

控制端(Brain)的五个能力
1. 自然语言交互:LLMs强大的自然语言生成和理解能力,使智能代理能通过自然语言与外界多轮交互,实现目标。具体分为高质量文本生成和言外之意的理解。
2. 知识:基于大批量语料训练的LLMs,拥有存储海量知识的能力,包括语言知识、常识知识和专业技能知识。
3. 记忆:记忆模块储存代理过往的观察、思考和行动序列,通过特定记忆机制,代理可反思并应用先前策略,借鉴经验适应陌生环境。提升记忆能力的方法包括扩展Backbone架构长度限制、总结记忆和压缩记忆。
4. 推理&规划:推理能力对智能代理进行决策、分析等复杂任务至关重要。具体到LLMs,是以思维链(CoT)为代表的提示方法。规划则是面对大型挑战时常用的策略,帮助代理组织思维、设定目标并确定实现目标的步骤。
5. 迁移性&泛化性:拥有世界知识的LLMs赋予智能代理强大的迁移与泛化能力。通过指令微调的大模型在zero-shot测试中表现良好,在许多任务上取得不亚于专家模型的成绩。此外,情景学习和持续学习也为代理在现实世界中的应用提供了更多可能性。

感知端(Perception)
人类通过多模态方式感知世界,因此研究者们对LLM-based Agents抱有同样期待。多模态感知能加深代理对工作环境的理解,显著提升其通用性。具体包括:
1. 文本输入:作为LLMs最基础的能力,此处不再赘述。
2. 视觉输入:LLMs本身不具备视觉感知能力,但可通过将视觉输入转为文本描述(Image Captioning)或对视觉信息进行编码表示来理解。
3. 听觉输入:听觉也是人类感知的重要组成部分。LLMs可通过级联方式调用现有工具集或专家模型感知音频信息,也可通过频谱图(Spectrogram)进行直观表示。
4. 其他输入:现实世界中的信息远不止文本、视觉和听觉。未来,智能代理或将配备触觉、嗅觉等感知模块,并感受环境温度、湿度、明暗程度,采取更Environment-aware的行动。此外,还可引入对更广阔整体环境的感知模块。

行动端(Action)
在大脑做出分析、决策后,代理还需做出行动以适应或改变环境:
1. 文本输出:作为LLMs最基础的能力,此处不再赘述。
2. 工具使用:工具作为使用者能力的扩展,可帮助代理在专业性、事实性、可解释性等方面提供帮助,并扩展智能代理的行动空间。目前主要的工具学习方法包括从演示中学习和从反馈中学习。
3. 具身行动:具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动被视为虚拟智能与物理现实的互通桥梁。根据代理在任务中的自主程度,原子行动包括Observation(定位自身位置、感知对象物品和获取环境信息)、Manipulation(完成抓取、推动等操作任务)和Navigation(根据任务目标变换自身位置并更新自身状态)。通过组合这些原子行动,代理可完成更复杂的任务。

Agent in Practice:多样化的应用场景
当下,LLM-based Agents已展现出令人瞩目的多样性和强大性能。AutoGPT、MetaGPT、CAMEL以及GPT Engineer等应用实例正在以前所未有的速度蓬勃发展。作者们讨论了Agent in Practice的设计原则:
1. 帮助用户从日常任务、重复劳动中解脱出来,减轻人类工作压力,提高解决任务的效率。
2. 不再需要用户提出显式的低级指令,代理可完全自主地分析、规划、解决问题。
3. 解放双手后,尝试解放大脑:在前沿科学领域充分发挥潜能,完成创新性、探索性工作。

基于此,代理的应用有三种范式:单代理、多代理、人机交互。
1. 单代理场景:接受人类自然语言命令,执行日常任务的智能代理备受用户青睐。作者们将其应用场景划分为三个层次:任务导向、创新导向、生命周期导向。
– 任务导向:代理帮助人类处理日常基本任务,需具备基本指令理解、任务分解、与环境交互的能力。具体可分为模拟网络环境与模拟生活场景。
– 创新导向:代理在前沿科学领域展现自主探究潜力,虽受专业领域复杂性和训练数据缺乏阻碍,但已在化学、材料、计算机等领域取得进展。
– 生命周期导向:代理在开放世界中不断探索、学习新技能并长久生存,以《我的世界》游戏为例展开介绍。

2. 多代理场景:早在1986年,Marvin Minsky就预言智力是在许多较小、特定功能的代理相互作用中产生的。多代理系统主要关注代理们如何有效协调并协作解决问题。作者们将多代理交互划分为两种形式:
– 合作型互动:作为实际应用中最广泛的类型,合作型代理系统可提高任务效率、共同改进决策。具体分为无序合作(代理自由表达观点)和有序合作(代理遵循规则逐一发表观点)。
– 对抗型互动:智能代理以针锋相对的方式进行互动,通过竞争、谈判、辩论等形式,抛弃错误信念,反思行为或推理过程,提升系统响应质量。

3. 人机交互场景:智能代理通过与人类交互,合作完成任务。一方面,代理的动态学习能力需要沟通交流支持;另一方面,代理系统在可解释性上的不足需要人类参与规范与监督。作者们将其划分为两种模式:
– Instructor-Executor模式:人类作为指导者,给出指令、反馈意见;代理作为执行者,逐步调整、优化。这种模式在教育、医疗、商业等领域得到广泛应用。
– Equal Partnership模式:代理在与人类交流中表现出共情能力,或以平等身份参与任务执行。智能代理展现出日常生活应用潜力,有望融入人类社会。

Agent 社会:从个性到社会性
长期以来,研究人员憧憬构建「交互式的人工社会」,从沙盒游戏《模拟人生》到「元宇宙」,人们对模拟社会的定义可概述为:环境+环境中生存、互动的个体。作者们用一张图描述了Agent社会的概念框架,分为两个关键部分:代理和环境。
左侧部分:在个体层面上,代理表现出多种内化行为(如计划、推理、反思),并显现内在人格特征(认知、情感、性格)。
中间部分:单个代理可与其他代理个体组成群体,共同展现合作等群体行为(如协同合作)。
右侧部分:环境形式可以是虚拟沙盒环境或真实物理世界,要素包括人类参与者和各类可用资源。对于单个代理而言,其他代理也属于环境的一部分。

整体互动:代理们通过感知外界环境、采取行动,积极参与整个交互过程。代理的社会行为与人格
社会行为:从社会角度出发,可分为个体行为(以感知为代表的输入、行动为代表的输出、代理自身的内化行为)和群体行为(以协作为代表的积极行为、以冲突为代表的消极行为、以从众、旁观为代表的中立行为)。
人格:包括认知、情感和性格。代理通过与群体和环境的互动中逐渐塑造人格,展现出「类人智能」。
– 认知(Cognitive abilities):涵盖代理获取和理解知识的过程,研究表明,基于LLM的代理在某些方面能表现出类似于人类的深思熟虑和智力水平。
– 情感(Emotional intelligence):涉及主观感受和情绪状态(如喜怒乐悲),以及表现出同情和共情的能力。
– 性格(Character portrayal):研究人员利用大五人格、MBTI测试等成熟评测方式,探究LLMs的性格特征多样性。

模拟社会的运行环境
代理社会不仅由独立的个体构成,还包括与其交互的环境。环境对代理的感知、行动和互动产生影响,反过来,代理也通过行为和决策改变环境状态。对于单个代理而言,环境包括其他自主代理、人类以及可使用的资源。作者们探讨了环境的三种类型:
1. 基于文本的环境:由于LLMs主要依赖语言作为输入和输出格式,因此基于文本的环境是代理最自然的操作平台。文本环境提供语义和背景知识,代理依赖文本资源来感知、推理和采取行动。
2. 虚拟沙盒环境:沙盒是指可受控且隔离的环境,常用于软件测试和病毒分析。代理社会的虚拟沙盒环境作为模拟社会互动和行为仿真的平台,其特点包括可视化(可用2D图形界面或3D建模展示世界)和可扩展性(可构建和部署各种场景进行实验)。
3. 真实的物理环境:物理环境由实际物体和空间组成,代理在其中进行观察和行动,引入丰富感官输入(视觉、听觉和空间感)。与虚拟环境不同,物理空间对代理行为提出更多要求,即代理必须具备适应性,生成可执行的运动控制。作者举例说明物理环境的复杂性:智能代理在工厂操作机械臂时,需精确控制力度避免损坏物体,并导航调整移动路径以规避障碍物并优化运动轨迹。

模拟,启动!
作者们认为,一个模拟社会应具有开放性(允许代理自主进出)、持久性(具有随时间推移而发展的连贯轨迹)、情境性(主体在特定环境中的存在和运作)和组织性(拥有类似物理世界的规则与限制)。模拟社会的意义包括:
1. 探索群体智能的能力边界,如代理们共同筹办情人节派对。
2. 加速社会科学的研究,如通过模拟社交网络观察传播学现象。
3. 探讨代理背后的价值观,如模拟道德决策场景。
4. 辅助决策,如模拟政策对社会的影响。

进一步地,作者指出这些模拟可能存在一定风险,包括但不限于:有害社会现象、刻板印象和偏见、隐私安全问题、过度依赖与成瘾性。

前瞻开放问题
论文最后讨论了一些前瞻开放问题:
1. 智能代理与大语言模型的研究如何互相促进、共同发展?大模型在语言理解、决策制定及泛化能力等方面展现出强大潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。
2. LLM-based Agents会带来哪些挑战与隐忧?智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害。作者总结了更多潜在威胁,如非法滥用、失业风险、对人类福祉造成影响等。
3. 代理数量的提升(scaling up)会带来哪些机遇和挑战?在模拟社会中,提升个体数量可显著提升模拟的可信度与真实性,但代理数量上升会导致通信与消息传播问题复杂化,信息的失真、误解或幻觉现象会降低整个模拟系统的效率。
4. 网络上关于LLM-based Agent是否是通向AGI的合适道路的争论。有研究者认为,以GPT-4为代表的大模型已在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开AGI之门的钥匙。但也有研究者认为,自回归语言建模(Auto-regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,如世界模型(World Model),才能通向AGI。
5. 群体智能的演化历程。群体智能是集结众人意见进而转化为决策的过程。但一味通过增加代理数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?
6. 代理即服务(Agent as a Service,AaaS)。由于LLM-based Agents比大模型本身更加复杂,中小型企业或个人更难在本地构建,因此云厂商可以考虑以服务形式将智能代理落地,即Agent-as-a-Service。就像其他的云服务一样,AaaS有潜力为用户提供高灵活性和按需的自助服务。

最新快讯

2025年12月06日

01:27
佳华科技于2025年12月6日重磅宣布一项战略性并购计划,将通过发行股份与支付现金相结合的方式,全面收购数盾信息科技股份有限公司的控股权,同时拟募集配套资金以支持此次重大资产重组。这一举措标志着佳华科技在数据信息技术领域的战略布局迈入全新阶段,彰显了公司深耕行业前沿的决心与雄心。 据悉,本次交易已正式进入实质性推进阶段,佳华科技股票于当日恢复交易,市场高度关...
00:57
近日,一则引人注目的行业动态在科技界掀起波澜:数十位曾效力于苹果公司的顶尖工程师与设计师集体离职,他们的新雇主正是人工智能领域的领军企业OpenAI。根据LinkedIn的公开资料显示,这些离职员工在苹果期间参与了包括iPhone、AirPods和Apple Watch在内的多项核心产品的研发工作,他们的专业能力和丰富经验在业界享有盛誉。 这一人才流动的背后...

2025年12月05日

23:57
2025年12月5日,中国工业和信息化部正式公布了第402批《道路机动车辆生产企业及产品公告》,其中最引人注目的莫过于北京汽车制造厂旗下全新越野车的首次亮相——T10车型。这款硬派越野车以其独特的复古方正造型设计,迅速吸引了行业和消费者的目光。新车前脸部分采用了极具辨识度的圆形大灯组,搭配粗壮的横幅式前格栅以及大尺寸保险杠,整体造型硬朗霸气,彰显出强大的越野...
23:57
2025年12月5日,江苏苏州发生一起利用AI技术进行诈骗的案件,引发社会广泛关注。一名买家通过AI合成技术制作了6只死大闸蟹的虚假视频,以此向商家骗取195元退款。这一行为不仅违反了商业诚信,更触犯了法律底线。商家在发现公母蟹数量明显不符后,立即报警处理。警方介入调查后发现,该买家利用手机上的AI合成软件制作了逼真的虚假视频,企图蒙混过关。最终,该买家因诈...
23:57
2025年12月5日,中国工业和信息化部正式发布第402批新车公告,广汽昊铂携旗下全新力作——昊铂S600震撼登场。这款备受瞩目的中大型轿跑SUV不仅展现了品牌在新能源领域的深厚积淀,更以卓越的产品力向高端市场发起有力冲击。新车提供纯电与增程两种动力解决方案,全面满足不同消费者的出行需求。其车身尺寸长宽高分别为5015/1933/1700(或1685)mm,...
23:57
2025年12月5日,专注于特殊医学用途配方食品研发与销售的圣桐特医(青岛)营养健康科技股份公司正式向香港交易所提交了主板上市申请。此次关键性举动由知名证券机构利弗莫尔证券独家披露,并获得了中信证券作为独家保荐人的强力支持。根据公开披露的申请信息,圣桐特医计划通过港交所主板挂牌实现资本化,但具体的募集资金用途尚未详细公布。作为国内特殊医学用途配方食品领域的领...
23:57
2025年12月,抖音平台发现一起严重的黑产案件,涉案团伙以“扫码领鸡蛋”为诱饵,精心策划用户账号盗取行动。这些不法分子通过欺骗手段诱使用户登录个人账号,进而实施盗号行为,并将被盗账号用于非法获利。在接到相关线索后,平台迅速上报并积极配合警方调查,最终导致该团伙5名核心犯罪嫌疑人被依法刑事拘留。 此类盗号行为手段多样,包括地推引流、撞库攻击、木马植入等,...
23:57
2025年12月5日,备受期待的吉利银河M7 EM-i插电混动SUV正式亮相工信部申报名单,标志着吉利汽车在新能源领域又一力作即将问世。该车搭载了一台最大功率达82kW的1.5L混动发动机,配合耀宁新能源或时代长安提供的先进动力电池系统,将带来卓越的续航性能与燃油经济性。车身尺寸方面,银河M7 EM-i长宽高分别为4770×1905×1685mm,轴距达到2...
23:57
2025年12月5日,中国领先的半导体设备制造商拓荆科技正式宣布了一项重要的战略合作计划,将携手关联方丰泉创投共同投资芯丰精密,进一步巩固其在半导体设备领域的市场地位。根据公告内容,拓荆科技将以不超过2.7亿元人民币的现金,受让芯丰精密原股东持有的998.38万元注册资本,从而获得该公司16.4154%的股权,成为其绝对控股股东。与此同时,丰泉创投也将以30...
23:57
2025年12月5日,中国工业和信息化部正式发布第402批新车公告,备受期待的莲花汽车首款插电混动车型FOR ME终于揭开神秘面纱。这款新车作为莲花旗舰车型ELETRE的插混版本,不仅延续了其运动化的设计语言,更在动力系统上实现了突破性升级。从官方公布的数据来看,FOR ME的整车尺寸与现款纯电车型完全一致,长宽高分别为5103mm/2019mm/1636m...
23:57
2025年11月30日,跨境清算公司正式宣布CIPS香港接入点的成功上线。这一重要举措标志着跨境人民币支付清算网络在亚洲地区的布局再添关键节点,为全球金融机构提供更便捷的接入渠道。据悉,该接入点的设立主要针对提升CIPS整体服务质量,通过优化技术架构和流程,显著降低境外机构参与CIPS业务的接入成本,从而吸引更多国际参与者。同时,香港作为国际金融中心,接入点...
22:56
2025年12月5日,全球领先的流媒体巨头奈飞公司传来重大消息,宣布成功获得一笔总额不超过590亿美元的高级无担保过桥融资。这笔巨额资金将专项用于支付收购华纳兄弟探索公司交易中所需的现金部分,标志着双方在影视娱乐领域重磅合作的实质性进展。此次融资由富国银行、法国巴黎银行和汇丰银行联合领导的国际银团精心安排,展现了全球金融机构对奈飞此次战略布局的高度认可与支持...