智能代理能否成为开启通用人工智能(AGI)大门的钥匙?复旦大学自然语言处理团队(FudanNLP)最新发布的LLM-based Agents综述论文,以长达86页的篇幅和600余篇参考文献,全面探讨了基于大型语言模型的智能代理现状与发展。从AI Agent的历史演进出发,论文系统梳理了LLM-based Agent的背景、构成、应用场景及备受关注的代理社会,并深入探讨了相关领域的前瞻开放问题,为未来发展趋势提供了重要参考。论文链接:https://arxiv.org/pdf/2309.07864.pdf LLM-based Agent论文列表:https://github.com/WooooDyy/LLM-Agent-Paper-List 团队成员将为每篇相关论文添加「一句话概括」,欢迎Star仓库。

研究背景
长期以来,研究者们致力于打造与人类相当甚至超越人类水平的通用人工智能(AGI)。早在1950年代,艾伦·图灵就将「智能」的概念扩展至人工实体,并提出著名的图灵测试。这些人工智能实体被称为「代理」(Agent)。这一概念源于哲学,描述了拥有欲望、信念、意图及行动能力的实体。在人工智能领域,代理被赋予新的含义:具有自主性、反应性、积极性和社交能力的智能实体。由于「Agent」术语的中文译名尚未形成共识,学者们或将其译为智能体、行为体、代理或智能代理,本文统一使用「代理」和「智能代理」。

从那时起,代理的设计成为人工智能社区的焦点。然而,过去的研究主要集中在增强代理的特定能力,如符号推理或特定任务的掌握(国际象棋、围棋等)。这些研究更注重算法设计和训练策略,而忽视了模型固有的通用能力发展,如知识记忆、长期规划、有效泛化和高效互动。事实证明,增强模型固有能力是推动智能代理进一步发展的关键。

大型语言模型(LLMs)的出现为智能代理发展带来了新希望。若将NLP到AGI的发展路线分为五级:语料库、互联网、感知、具身和社会属性,目前的大型语言模型已达到第二级,具有互联网规模的文本输入和输出。在此基础上,赋予LLM-based Agents感知空间和行动空间,它们将迈向第三、第四级。进一步地,多个代理通过互动、合作解决复杂任务或反映现实社会行为,则有望达到第五级——代理社会。作者们设想了一个由智能代理构成的和谐社会,人类也可参与其中。场景取材自《原神》中的海灯节。

一个Agent的诞生
拥有大模型加持的智能代理会是什么样?作者们受达尔文「适者生存」法则启发,提出了基于大模型的智能代理通用框架。个体若要在社会中生存,必须学会适应环境,因此需要认知能力,并能够感知、应对外界变化。同样,智能代理的框架也由三部分组成:控制端(Brain)、感知端(Perception)和行动端(Action)。

控制端(Brain)
通常由LLMs构成,是智能代理的核心。它不仅存储记忆和知识,还承担信息处理、决策等功能,可呈现推理和计划过程,应对未知任务,体现智能代理的泛化性和迁移性。

感知端(Perception)
将智能代理的感知空间从纯文本拓展至文本、视觉和听觉等多模态领域,使其更有效地获取和利用环境信息。

行动端(Action)
除了常规文本输出,还赋予代理具身能力和使用工具的能力,使其更好地适应环境变化,通过反馈与环境交互,甚至塑造环境。

LLM-based Agent的概念框架包含三部分:控制端(Brain)、感知端(Perception)和行动端(Action)。作者们以人类询问是否会下雨为例说明LLM-based Agent的工作流程:感知端(Perception)将指令转换为LLMs可理解的表示,控制端(Brain)根据天气和天气预报进行推理和行动规划,行动端(Action)做出响应并将雨伞递给人类。通过重复这一过程,智能代理可不断获得反馈并与环境交互。

控制端(Brain)的五个能力
1. 自然语言交互:LLMs强大的自然语言生成和理解能力,使智能代理能通过自然语言与外界多轮交互,实现目标。具体分为高质量文本生成和言外之意的理解。
2. 知识:基于大批量语料训练的LLMs,拥有存储海量知识的能力,包括语言知识、常识知识和专业技能知识。
3. 记忆:记忆模块储存代理过往的观察、思考和行动序列,通过特定记忆机制,代理可反思并应用先前策略,借鉴经验适应陌生环境。提升记忆能力的方法包括扩展Backbone架构长度限制、总结记忆和压缩记忆。
4. 推理&规划:推理能力对智能代理进行决策、分析等复杂任务至关重要。具体到LLMs,是以思维链(CoT)为代表的提示方法。规划则是面对大型挑战时常用的策略,帮助代理组织思维、设定目标并确定实现目标的步骤。
5. 迁移性&泛化性:拥有世界知识的LLMs赋予智能代理强大的迁移与泛化能力。通过指令微调的大模型在zero-shot测试中表现良好,在许多任务上取得不亚于专家模型的成绩。此外,情景学习和持续学习也为代理在现实世界中的应用提供了更多可能性。

感知端(Perception)
人类通过多模态方式感知世界,因此研究者们对LLM-based Agents抱有同样期待。多模态感知能加深代理对工作环境的理解,显著提升其通用性。具体包括:
1. 文本输入:作为LLMs最基础的能力,此处不再赘述。
2. 视觉输入:LLMs本身不具备视觉感知能力,但可通过将视觉输入转为文本描述(Image Captioning)或对视觉信息进行编码表示来理解。
3. 听觉输入:听觉也是人类感知的重要组成部分。LLMs可通过级联方式调用现有工具集或专家模型感知音频信息,也可通过频谱图(Spectrogram)进行直观表示。
4. 其他输入:现实世界中的信息远不止文本、视觉和听觉。未来,智能代理或将配备触觉、嗅觉等感知模块,并感受环境温度、湿度、明暗程度,采取更Environment-aware的行动。此外,还可引入对更广阔整体环境的感知模块。

行动端(Action)
在大脑做出分析、决策后,代理还需做出行动以适应或改变环境:
1. 文本输出:作为LLMs最基础的能力,此处不再赘述。
2. 工具使用:工具作为使用者能力的扩展,可帮助代理在专业性、事实性、可解释性等方面提供帮助,并扩展智能代理的行动空间。目前主要的工具学习方法包括从演示中学习和从反馈中学习。
3. 具身行动:具身(Embodyment)是指代理与环境交互过程中,理解、改造环境并更新自身状态的能力。具身行动被视为虚拟智能与物理现实的互通桥梁。根据代理在任务中的自主程度,原子行动包括Observation(定位自身位置、感知对象物品和获取环境信息)、Manipulation(完成抓取、推动等操作任务)和Navigation(根据任务目标变换自身位置并更新自身状态)。通过组合这些原子行动,代理可完成更复杂的任务。

Agent in Practice:多样化的应用场景
当下,LLM-based Agents已展现出令人瞩目的多样性和强大性能。AutoGPT、MetaGPT、CAMEL以及GPT Engineer等应用实例正在以前所未有的速度蓬勃发展。作者们讨论了Agent in Practice的设计原则:
1. 帮助用户从日常任务、重复劳动中解脱出来,减轻人类工作压力,提高解决任务的效率。
2. 不再需要用户提出显式的低级指令,代理可完全自主地分析、规划、解决问题。
3. 解放双手后,尝试解放大脑:在前沿科学领域充分发挥潜能,完成创新性、探索性工作。

基于此,代理的应用有三种范式:单代理、多代理、人机交互。
1. 单代理场景:接受人类自然语言命令,执行日常任务的智能代理备受用户青睐。作者们将其应用场景划分为三个层次:任务导向、创新导向、生命周期导向。
– 任务导向:代理帮助人类处理日常基本任务,需具备基本指令理解、任务分解、与环境交互的能力。具体可分为模拟网络环境与模拟生活场景。
– 创新导向:代理在前沿科学领域展现自主探究潜力,虽受专业领域复杂性和训练数据缺乏阻碍,但已在化学、材料、计算机等领域取得进展。
– 生命周期导向:代理在开放世界中不断探索、学习新技能并长久生存,以《我的世界》游戏为例展开介绍。

2. 多代理场景:早在1986年,Marvin Minsky就预言智力是在许多较小、特定功能的代理相互作用中产生的。多代理系统主要关注代理们如何有效协调并协作解决问题。作者们将多代理交互划分为两种形式:
– 合作型互动:作为实际应用中最广泛的类型,合作型代理系统可提高任务效率、共同改进决策。具体分为无序合作(代理自由表达观点)和有序合作(代理遵循规则逐一发表观点)。
– 对抗型互动:智能代理以针锋相对的方式进行互动,通过竞争、谈判、辩论等形式,抛弃错误信念,反思行为或推理过程,提升系统响应质量。

3. 人机交互场景:智能代理通过与人类交互,合作完成任务。一方面,代理的动态学习能力需要沟通交流支持;另一方面,代理系统在可解释性上的不足需要人类参与规范与监督。作者们将其划分为两种模式:
– Instructor-Executor模式:人类作为指导者,给出指令、反馈意见;代理作为执行者,逐步调整、优化。这种模式在教育、医疗、商业等领域得到广泛应用。
– Equal Partnership模式:代理在与人类交流中表现出共情能力,或以平等身份参与任务执行。智能代理展现出日常生活应用潜力,有望融入人类社会。

Agent 社会:从个性到社会性
长期以来,研究人员憧憬构建「交互式的人工社会」,从沙盒游戏《模拟人生》到「元宇宙」,人们对模拟社会的定义可概述为:环境+环境中生存、互动的个体。作者们用一张图描述了Agent社会的概念框架,分为两个关键部分:代理和环境。
左侧部分:在个体层面上,代理表现出多种内化行为(如计划、推理、反思),并显现内在人格特征(认知、情感、性格)。
中间部分:单个代理可与其他代理个体组成群体,共同展现合作等群体行为(如协同合作)。
右侧部分:环境形式可以是虚拟沙盒环境或真实物理世界,要素包括人类参与者和各类可用资源。对于单个代理而言,其他代理也属于环境的一部分。

整体互动:代理们通过感知外界环境、采取行动,积极参与整个交互过程。代理的社会行为与人格
社会行为:从社会角度出发,可分为个体行为(以感知为代表的输入、行动为代表的输出、代理自身的内化行为)和群体行为(以协作为代表的积极行为、以冲突为代表的消极行为、以从众、旁观为代表的中立行为)。
人格:包括认知、情感和性格。代理通过与群体和环境的互动中逐渐塑造人格,展现出「类人智能」。
– 认知(Cognitive abilities):涵盖代理获取和理解知识的过程,研究表明,基于LLM的代理在某些方面能表现出类似于人类的深思熟虑和智力水平。
– 情感(Emotional intelligence):涉及主观感受和情绪状态(如喜怒乐悲),以及表现出同情和共情的能力。
– 性格(Character portrayal):研究人员利用大五人格、MBTI测试等成熟评测方式,探究LLMs的性格特征多样性。

模拟社会的运行环境
代理社会不仅由独立的个体构成,还包括与其交互的环境。环境对代理的感知、行动和互动产生影响,反过来,代理也通过行为和决策改变环境状态。对于单个代理而言,环境包括其他自主代理、人类以及可使用的资源。作者们探讨了环境的三种类型:
1. 基于文本的环境:由于LLMs主要依赖语言作为输入和输出格式,因此基于文本的环境是代理最自然的操作平台。文本环境提供语义和背景知识,代理依赖文本资源来感知、推理和采取行动。
2. 虚拟沙盒环境:沙盒是指可受控且隔离的环境,常用于软件测试和病毒分析。代理社会的虚拟沙盒环境作为模拟社会互动和行为仿真的平台,其特点包括可视化(可用2D图形界面或3D建模展示世界)和可扩展性(可构建和部署各种场景进行实验)。
3. 真实的物理环境:物理环境由实际物体和空间组成,代理在其中进行观察和行动,引入丰富感官输入(视觉、听觉和空间感)。与虚拟环境不同,物理空间对代理行为提出更多要求,即代理必须具备适应性,生成可执行的运动控制。作者举例说明物理环境的复杂性:智能代理在工厂操作机械臂时,需精确控制力度避免损坏物体,并导航调整移动路径以规避障碍物并优化运动轨迹。

模拟,启动!
作者们认为,一个模拟社会应具有开放性(允许代理自主进出)、持久性(具有随时间推移而发展的连贯轨迹)、情境性(主体在特定环境中的存在和运作)和组织性(拥有类似物理世界的规则与限制)。模拟社会的意义包括:
1. 探索群体智能的能力边界,如代理们共同筹办情人节派对。
2. 加速社会科学的研究,如通过模拟社交网络观察传播学现象。
3. 探讨代理背后的价值观,如模拟道德决策场景。
4. 辅助决策,如模拟政策对社会的影响。

进一步地,作者指出这些模拟可能存在一定风险,包括但不限于:有害社会现象、刻板印象和偏见、隐私安全问题、过度依赖与成瘾性。

前瞻开放问题
论文最后讨论了一些前瞻开放问题:
1. 智能代理与大语言模型的研究如何互相促进、共同发展?大模型在语言理解、决策制定及泛化能力等方面展现出强大潜力,成为代理构建过程中的关键角色,而代理的进展也为大模型提出了更高的要求。
2. LLM-based Agents会带来哪些挑战与隐忧?智能代理能否真正落地,需要经过严谨的安全性评估,避免对真实世界带来危害。作者总结了更多潜在威胁,如非法滥用、失业风险、对人类福祉造成影响等。
3. 代理数量的提升(scaling up)会带来哪些机遇和挑战?在模拟社会中,提升个体数量可显著提升模拟的可信度与真实性,但代理数量上升会导致通信与消息传播问题复杂化,信息的失真、误解或幻觉现象会降低整个模拟系统的效率。
4. 网络上关于LLM-based Agent是否是通向AGI的合适道路的争论。有研究者认为,以GPT-4为代表的大模型已在足够的语料上进行了训练,在此基础上构建的代理有潜力成为打开AGI之门的钥匙。但也有研究者认为,自回归语言建模(Auto-regressive Language Modeling)并不能显现出真正的智能,因为它们只是作出响应。一个更完备的建模方式,如世界模型(World Model),才能通向AGI。
5. 群体智能的演化历程。群体智能是集结众人意见进而转化为决策的过程。但一味通过增加代理数量,是否会产生真正的「智能」?此外,如何协调单个代理,让智能代理社会克服「团体迷思」和个人认知偏差?
6. 代理即服务(Agent as a Service,AaaS)。由于LLM-based Agents比大模型本身更加复杂,中小型企业或个人更难在本地构建,因此云厂商可以考虑以服务形式将智能代理落地,即Agent-as-a-Service。就像其他的云服务一样,AaaS有潜力为用户提供高灵活性和按需的自助服务。

最新快讯

2026年01月05日

09:25
在2026年 CES 展会上,LG 首次展示了其全新的家庭智能机器人 CLOiD。这款机器人旨在帮助家庭完成各种家务任务,包括叠衣服、清理洗碗机和送餐等。CLOiD 的设计十分亲和,其头部集成了显示屏、扬声器、摄像头和多种传感器,使其能够通过语音与用户互动,同时展现出类似表情的反应。CLOiD 不仅能与家庭成员进行友好的交流,还可以学习家庭环境和用户的生活习...
09:25
微软首席执行官萨提亚·纳德拉近日正式推出个人博客“SN Scratchpad”,以分享他对人工智能(AI)未来的深刻洞见。在首篇文章中,纳德拉系统性地探讨了AI技术的演进轨迹及其对社会发展的深远影响。他指出,当前业界对于AI是“低质内容”还是“高端技术”的争论已经偏离了真正的问题核心——如何将AI打造成为“认知放大器”,从而推动人类思维模式的根本性变革。 纳...
09:24
台湾知名媒体《经济日报》联合供应链消息源独家披露,OpenAI 正在全力推进其首款个人AI硬件设备的研发工作,该项目代号被命名为“Project Gumdrop”。这一举措不仅标志着OpenAI正式从软件服务领域跨界进军硬件制造市场,更开启了一段充满无限可能的新征程。 目前,这款备受期待的设备仍处于设计阶段,其最终形态尚未完全揭晓。但从现有信息来看,设备很可...
09:24
在2026年 CES 消费电子展即将拉开帷幕之际,备受瞩目的硬件创新企业 Plaud 带来了其第四代 AI 硬件力作——NotePin S,并同步发布了革命性的桌面端应用程序。这一系列发布标志着 Plaud 正式完成从专业线下录音设备到全场景 AI 办公生态的华丽转身,为用户带来前所未有的智能办公体验。 NotePin S:进化为全能型 AI 助理的别针式笔...
09:24
近日,在社交媒体平台X上,特斯拉与SpaceX的创始人埃隆马斯克正式发布了Grok应用的新版本,并惊喜地透露该应用已成功突破3000万月活跃用户大关这一里程碑。这一重磅消息迅速引爆了科技圈和用户社群,标志着Grok在全球范围内正以惊人的速度扩张其影响力。此次推出的版本号为1.3.28,已全面登陆iOS平台供用户免费升级。马斯克在发布视频中特别强调了新版Gro...
09:05
1月3日,陕西西安的一对年轻夫妻在社交平台上发布了一段温馨视频,向网友们分享了一个令人惊喜的消息——他们即将兑现一份十年前购买的“恋爱保险”。这一独特的举动迅速吸引了大量网友的目光,成为甜蜜话题中的焦点。 根据保险条款的约定,夫妻二人可以选择获得一万朵玫瑰花或一万元现金作为奖励。经过深思熟虑,他们最终决定兑换现金,并计划用这笔意外之财购置对两人而言具有特殊意...
09:05
安徽阜阳近日上演了一场令人瞠目的舞台奇观,50岁的大叔谢洪亮以反串“白发老奶”的惊艳表演引爆网络。这位看似年迈的“婆婆”在舞台上活力四射,霹雳舞步干净利落,动感十足,瞬间点燃全场气氛。台下观众掌声雷动,纷纷举起手机记录这难忘的瞬间,却无人知晓这位魅力四射的“老奶”竟是一位壮年大叔。谢洪亮为此倾注了两年的心血,反复揣摩每一个动作,最终成功塑造出以假乱真的“霹雳...
09:05
近日,上海某动物园内发生的一幕奇趣景象,让一只红毛猩猩的举动在网络上掀起了轩然大波。这只可爱的红毛猩猩在游客投喂时,竟做出了一个令人忍俊不禁的举动——它接过食物后,竟然双手抱拳,仿佛在向游客表达谢意。这一幕被细心的游客捕捉并上传至网络,迅速引发了网友们的热烈讨论。视频中,红毛猩猩的萌态十足,双手抱拳的动作惟妙惟肖,仿佛在向游客行礼致谢。网友们纷纷被这一幕逗乐...
09:05
微新创想1月5日重磅报道,荣耀即将于今晚19:30举办一场备受瞩目的新品发布会,正式揭开旗下续航旗舰荣耀Power2的神秘面纱。这款手机最令人期待的亮点无疑是其革命性的超大电池配置,继今年4月全球首发8000mAh大电池技术后,荣耀Power2再次突破极限,实现了10080mAh的史无前例的巨无霸级电池容量。 荣耀官方透露,荣耀Power2的惊人电池续航能力...
08:34
东北地区近日发生了一起令人瞠目结舌的奇观,一户人家因冬季外出时的疏忽大意,未关闭家中水龙头,竟引发了一场意想不到的“冰封奇遇”。据了解,这户人家在极寒的冬季外出时,竟忘记了关闭水龙头。由于室外温度骤降至零下,室内不断流出的水迅速凝结成冰。当他们返回家中时,眼前的景象让他们惊呆了:原本温馨的家园瞬间被厚达半米的“冰山”占据,宛如一座神秘的“广寒宫”。 走进这户...
08:34
近日,河南郑州一位60岁的王大爷(化名)遇到了一件令人困扰的健康问题。王大爷长期受脚气困扰已有十余年,为了图方便,他习惯将袜子和内裤混在一起清洗。然而最近,他大腿根部突然出现大片令人惊恐的红斑,这让他感到十分不安。王大爷急忙前往医院就诊,经过医生的仔细诊断,确诊他患上了股癣。医生分析认为,这极有可能是因为袜子与内裤混洗,导致脚癣的真菌交叉感染所致。更令人担忧...
08:34
2026年1月4日,鸿蒙智行官方正式宣布,问界M9汽车在50万级豪华车市场中成功斩获年度销量冠军的殊荣。自问世以来,这款车型凭借卓越的性能与用户体验,累计交付量已突破26万辆,并持续领跑同级别市场长达20个月之久。问界M9不仅赢得了消费者的广泛认可,更在多个关键指标上表现突出,展现出强大的市场竞争力。凭借其高用户净推荐值与出色保值率,问界M9连续两期蝉联新能...