Agent AI 时代已经悄然来临,其发展速度远超我们的预期。就在北京时间周五凌晨,OpenAI 突然开启了新产品直播,正式发布了全新的 ChatGPT Agent。这一全新升级不仅实现了通用智能体(Agent)能力的突破,更标志着 AI 技术迈入了一个全新的阶段。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图

与以往单纯的大模型升级不同,通用 Agent 能够自动整合多种工具,通过智能规划协助人们完成各种复杂任务。无论是自动浏览用户日历、生成可编辑的 PPT,还是运行代码,ChatGPT Agent 都能轻松应对。它能够无缝连接 Gmail、GitHub 等平台获取信息并解决问题,通过 API 访问各类应用,为用户带来前所未有的智能体验。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图1

在性能表现上,ChatGPT Agent 更是实现了大幅飞跃。基于该 Agent 的模型在 HLE 基准测试中取得了 41.6% 的优异成绩,是 o3 和 o4-mini 模型的近两倍。目前,ChatGPT Agent 已向 OpenAI Pro、Plus 和 Team 计划的订阅用户开放,用户只需在 ChatGPT 的工具下拉菜单中选择「Agent 模式」即可体验。OpenAI 表示,企业版和教育版用户预计将于夏季晚些时候获得该功能。Pro 用户每月可使用 400 次 Agent 提示,其他付费用户则最多可使用 40 次,而面向 ChatGPT 免费用户的推出时间尚不明确。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图2

这是 OpenAI 迄今最为大胆的一次新产品发布。从此以后,ChatGPT 不再仅仅是一款回答问题的工具,而是成为了一款能够为人们采取行动、分担任务的智能 Agent 产品。OpenAI CEO 山姆・奥特曼(Sam Altman)表示,看着 ChatGPT 智能体使用计算机执行复杂任务,让他真正感受到了 AGI 的魅力,计算机的思考、计划和执行能力带来了前所未有的震撼体验。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图3

ChatGPT 现在可以使用自己的虚拟电脑为用户处理复杂任务,实现从始至终的全流程自动化。用户不仅可以让 ChatGPT 执行「查询年度财务报告」等请求,还能智能浏览网站、筛选结果,在需要时安全登录,运行代码、进行分析,甚至交付可编辑的幻灯片和电子表格,全面总结研究成果。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图4

以「ChatGPT Agent 搜索查询旧金山市年度综合财务报告(2020-2024年)」为例,只需简单输入提示,ChatGPT Agent 就能迅速完成信息检索和整理工作。再比如,输入「我是一位网球迷,想去棕榈泉观看网球比赛,特别是在半决赛/决赛期间。我住在旧金山,请帮我制定一份详细的三天行程,包括航班安排、酒店预订、活动内容(比赛、徒步、美食、水疗等)。我喜欢徒步旅行、纯素食餐厅和水疗。总预算为3000美元。这份行程需要包括:精确的时间安排;每项活动的内容、费用和其他细节;如有需要,提供购票或预订链接」,ChatGPT Agent 将为你量身定制完美行程。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图5

这一新能力的核心是一个统一的智能 agentic 系统,它巧妙结合了 Operator 的网站交互能力、deep research 的信息综合能力,以及 ChatGPT 的智能推理与对话能力。ChatGPT 借助自己的虚拟计算环境,在推理与执行之间灵活切换,根据用户指令,从头到尾处理复杂的工作流程。最重要的是,用户始终掌控全局。ChatGPT 会在执行任何重要操作前征求许可,用户也可以随时中断任务、接管浏览器或停止运行。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图6

OpenAI 表示,虽然 ChatGPT Agent 已经能够应对复杂任务,但这只是开始。他们将持续迭代、定期推出重大改进,让 ChatGPT Agent 变得更加强大、更加实用,服务于更多用户。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图7

Operator 与深度研究的自然进化

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图8

过去,Operator 和 deep research 各自拥有独特优势:Operator 能够在网页上滚动、点击和输入,而 deep research 擅长分析和总结信息。然而,二者在不同场景下才发挥最大作用,各有不擅长的领域。Operator 无法深入分析或撰写详细报告,而 deep research 又无法与网页交互、进一步筛选结果或访问需要用户登录的内容。OpenAI 发现,许多用户尝试用 Operator 处理的任务,其实更适合用 deep research,因此决定将二者的优势整合在一起。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图9

通过将这些互补能力集成进 ChatGPT,并引入更多工具,OpenAI 在一个模型中解锁了全新的能力。它现在可以主动与网站交互——点击、筛选并收集更精准、高效的结果。用户也可以在同一个对话中,从自然的交流无缝过渡到发出具体操作请求。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图10

OpenAI 为 ChatGPT Agent 配备了一整套工具:包括一个通过图形用户界面与网页交互的可视化浏览器、一个用于处理简单推理类网页查询的文本浏览器、一个终端(命令行界面),以及直接调用 API 的能力。该 agent 还可以利用 ChatGPT Connectors,将 Gmail、GitHub 等应用连接进来,使 ChatGPT 能够查找与提示相关的信息,并将其用于回答中。用户也可以通过接管浏览器,在任意网站上登录账户,从而帮助它在信息检索和任务执行方面更深入、更广泛。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图11

为 ChatGPT 提供多种访问和交互网页信息的方式,意味着 ChatGPT Agent 能够选择最优路径,以最高效地完成任务。例如,它可以通过 API 获取用户的日历信息,使用文本浏览器高效处理大量文本内容,同时也具备通过可视化界面与专为人类设计的网站进行交互的能力。所有这些操作都是在 ChatGPT Agent 自己的虚拟计算机上完成的,这可以在使用多个工具时保留任务所需的上下文信息。ChatGPT Agent 可以根据需要选择用文本浏览器或可视化浏览器打开网页,从网上下载文件,在终端中运行命令处理文件,然后再通过可视化浏览器查看输出结果。同时也会根据任务调整策略,以快速、准确和高效地执行。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图12

ChatGPT Agent 专为迭代式、协作式的工作流程而设计,远比以往的模型更加互动和灵活。在 ChatGPT 执行任务的过程中,用户可以随时打断它,进一步澄清指令,令其朝着期望的方向发展,或完全更换任务内容。它会在新的信息基础上继续工作,而不会丢失此前的进度。同样地,ChatGPT 也会在需要时主动向用户请求更多细节,以确保任务始终与目标保持一致。如果某项任务耗时超出预期或陷入停滞,用户可以选择暂停任务、请求进度摘要,或者直接终止任务并获取当前已有的部分结果。如果用户在手机上安装了 ChatGPT 应用,它还会在任务完成后发送通知。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图13

基准测试结果:拓展现实世界的实用性

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图14

ChatGPT Agent 及背后模型的能力提升体现在多个基准测试中的顶尖表现,评估内容包括网页浏览和现实世界任务的完成能力。其中在「人类最后考试」(Humanity’s Last Exam)评估中,支持 ChatGPT Agent 的模型在该评估中的 Pass@1分数为 41.6。由于该 Agent 能够动态规划并自主选择工具,它可以通过不同的方式处理相同的任务。在通过简单的并行策略进行扩展时——同时运行最多八次尝试并选择自我报告信心最高的结果——该 Agent 的 HLE 得分提高到了 44.4。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图15

FrontierMath 是目前已知最难的数学基准测试,包含全新且未公开发表的问题,通常需要数学专家花费数小时甚至数天才能解决。在具备工具使用能力(例如可访问终端以执行代码)的情况下,ChatGPT Agent 在该测试中达到了 27.4% 的准确率,远远超越此前的所有模型。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图16

OpenAI 还使用模拟复杂真实任务的基准测试对该模型进行了评估。在一个用于评估模型在复杂、具有经济价值的知识型工作任务中表现的内部基准中,ChatGPT Agent 的输出在大约一半的情况下可与人类相媲美,甚至优于人类,任务完成时间范围不等,并且显著优于 o3 和 o4-mini 模型。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图17

在 DSBench 基准测试中,用于评估 Agent 在涵盖数据分析与建模的真实数据科学任务的表现。ChatGPT Agent 超越了人类的平均表现,且优势明显。在 SpreadsheetBench 基准测试中,用于评估模型处理真实场景电子表格编辑任务的能力。ChatGPT Agent 表现远超现有模型。当赋予直接编辑电子表格的能力时,它的得分更是高达 45.5%,而 Excel 中的 Copilot 仅为 20.0%。

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化插图18

方法概览如下:SpreadsheetBench 的作者使用的是基于 Windows 系统的 Microsoft Excel 环境来评估电子表格任务。而 OpenAI 使用的是 macOS 系统和 LibreOffice,这可能会导致评分上的细微差异。例如,作者报告 GPT-4o 在「整体高难度限制」项上的得分为 15.02%,而 OpenAI 测得的结果为 13.38%。OpenAI 使用的是包含全部 912 道题目的完整基准测试集。

在一个内部基准测试中,OpenAI 评估了模型处理投资银行分析师一至三年级建模任务的能力,例如:为一家《财富》500 强公司制作带有规范格式和引用的三大财务报表模型。ChatGPT Agent 所依托的模型在这一评估中显著优于 deep research 和 o3。

OpenAI 还在 BrowseComp 基准测试中评估了 ChatGPT Agent。该基准由 OpenAI 于今年早些时候发布,用于衡量浏览型 Agent 在网络上查找难以获取信息的能力。ChatGPT Agent 在该测试中创下了新的 SOTA(当前最优表现),得分为 68.9%,比 deep research 高出 17.4 个百分点。

最后,在 WebArena 基准测试中,用于评估网页浏览型 Agent 完成真实网页任务的能力。ChatGPT Agent 在表现上超越了由 o3 驱动的 CUA(即驱动 Operator 的模型)。

山姆・奥特曼发表了一篇长推介绍了 ChatGPT Agent 的安全限制。Agent 代表了 AI 系统能力的新高度,它能够利用自身的计算机为你完成一些特殊而复杂的任务。它融合了 Deep Research 和 Operator 的精髓,但实际功能远超想象——它可以进行长时间思考,使用一些工具,进行更深入的思考,采取一些行动,再进行更深入的思考等等。例如,我们在发布会上展示了一个为朋友的婚礼做准备的演示:购买服装、预订行程、挑选礼物等等。我们还展示了一个分析数据并创建工作演示文稿的示例。尽管其效用很大,但潜在的风险也很大。我们已在其中构建了大量的安全措施和警告,以及比以往任何时候都更广泛的缓解措施,从强大的训练到系统安全措施再到用户控制,但我们无法预见一切。本着迭代部署的精神,我们将向用户发出很多警告,并给予用户自主选择是否谨慎采取行动的自由。我会向我的家人解释这是前沿和实验性的。这是一个尝试未来的机会,但在我们有机会在现实世界研究和改进它之前,我不会将它用于高风险用途或获取大量个人信息。我们尚不清楚具体会造成什么影响,但恶意行为者可能会试图「诱骗」用户的 AI Agent,使其提供不该提供的隐私信息,并采取不该采取的行动,而这些行为的方式我们无法预测。我们建议授予 Agent 完成任务所需的最低访问权限,以降低隐私和安全风险。例如,我可以授权 Agent 访问我的日历,以便安排一个合适的聚餐时间。但如果我只是让它帮我买衣服,就不需要授予它任何访问权限。诸如「查看我昨晚收到的电子邮件,并采取一切必要措施处理,不要问任何后续问题」之类的任务风险更大。这可能会导致恶意电子邮件中不可信的内容诱骗模型泄露你的数据。我们认为,重要的是从接触现实开始学习,并且随着我们更好地量化和降低潜在风险,人们应该谨慎而缓慢地采用这些工具。与其他新的能力水平一样,社会、技术和风险缓解策略需要共同发展。

网友一手体验

至于这款 Agent 是否好用,不少网友现身说法。X 网友 @rowancheung 提前获得访问权限,并让 ChatGPT Agent 在 20 分钟内为他创建一个完整的提前退休计划。拿到任务,ChatGPT Agent 就开始查找温哥华的当地税法、分析平均每月支出率、计算 30 岁退休所需的储蓄金额、研究最佳投资分配,还发现了 Rowan 从未听说过的税务优化策略、构建多种财务独立提前退休(FIRE)场景,最终创建一个可下载的演示文稿,总结结果。Rowan 表示,这项工作如果由财务顾问完成,可能会花费 5000 美元以上,并且需要数周时间。其中电子表格和幻灯片生成能力确实不错,但与 Manus 或 Genspark 等工具得到的结果类似。于是,Genspark 联合创始人、CEO Eric Jing 将 Rowan Cheung 的提示词进行了 OCR,并将其输入到 Genspark 中。他表示,在相同的提示下,Genspark 仅用了一小部分时间和成本,就生成了比 ChatGPT Agent 质量高得多的结果。

还有网友让 ChatGPT Agent 去 Tesco 食品店完成购物,订购烤肉晚餐和粘稠焦糖布丁。他给出的提示词也相当简单:「Help me do a tesco shop for a roast dinner this weekend for two people. Include a treat for desert。」「我看着它浏览网站、提示我输入登录信息、将商品加入购物车,并自主完成整个过程,真是太不可思议了。」不过,该网友也坦言,ChatGPT Agent 干活的整个过程大约花了 20 分钟,如果自己手动操作可能会更高效一些,未来还有改进的空间。

最新快讯

2025年07月31日

03:01
2025年7月31日,大宗商品市场迎来显著波动。上期所原油期货主力合约夜盘表现强劲,涨幅高达1.66%,最终报收于533元/桶,显示出市场对国际原油供需格局的积极预期。与此同时,贵金属板块则呈现不同走势,沪金主力合约遭遇下跌,跌幅为0.32%,收报771元/克;而沪银主力合约更是大幅下挫,跌幅达到1.32%,最终报9090元/千克。这一涨一跌的分化格局,反映...
03:01
7月31日,现货白银价格遭遇重挫,跌幅高达2%,最终报收于37.38美元/盎司。这一显著下滑不仅揭示了市场对贵金属需求结构的深刻变化,更折射出宏观经济环境复杂多变的深层影响。 当前,全球经济复苏步伐放缓,通胀压力持续存在,投资者对避险资产的需求明显减弱。与此同时,金融市场波动加剧,地缘政治风险升温,进一步削弱了投资者对贵金属的配置意愿。这些因素共同作用,...
03:01
2025年7月31日,北京时间,全球铜市经历了一场剧烈的波动。纽约期铜价格在开盘后遭遇断崖式下跌,一度暴跌16%,引发市场广泛关注。随着恐慌情绪逐渐消退,价格出现了一定程度的反弹,但目前仍处于下跌通道中,跌幅收窄至10%,报收于5.06美元/磅。 此次价格剧烈波动主要源于市场情绪的剧烈变化。全球经济前景的不确定性成为关键因素,投资者对潜在的衰退风险感到担忧。...
03:01
2025年7月31日凌晨,随着台风“竹节草”逐渐远离,上海市正式解除此前发布的台风和暴雨蓝色预警,防汛防台四级响应行动也同步终止。尽管台风已明显减弱,但上海中心气象台仍于凌晨01时紧急发布大风蓝色预警,提醒市民未来24小时内可能遭遇8级以上阵风。此次预警旨在警示公众防范大风可能对城市交通、农业生产以及高空作业带来的潜在风险。此前,受第8号台风“竹节草”的影响...
03:01
俄罗斯国家航天集团总裁巴卡诺夫于7月29日正式宣布,国际空间站退役的详细计划草案已经完成。根据该草案,国际空间站的退役过程预计将历时约2.5年,确保各项任务平稳过渡。尽管退役计划已定,但国际空间站的实际运行时间有望得到进一步延长,至少将继续运行至2028年,部分关键任务甚至可能延续至2030年。 国际空间站作为人类太空探索的重要里程碑,自1998年正式启动以...
01:43
近期,长江实业旗下和记黄埔地产在香港市场掀起了一股置业热潮,集中向本地买家推介位于惠州、中山、广州及东莞的四个优质项目,共计400套房源,总价起价仅为40万元。此次推介活动以“老盘新卖”模式为特色,不仅延续了李嘉诚家族一贯的“低价拿地、长线开发”的稳健策略,更凸显了港人北上置业需求的持续升温。 此次推出的四个项目分别位于珠三角核心区域,涵盖了惠州、中山、广州...
01:43
2025年7月31日,Iveco正式发布了其第二季度的财务报告,数据显示公司营收达到37.8亿欧元,这一数字不仅成功超越了市场分析师此前预测的35.4亿欧元,更展现出强劲的增长势头。这一令人瞩目的业绩主要得益于两个关键因素的共同推动:一是全球市场需求的显著回升,二是公司产品结构的持续优化升级。从数据中我们可以清晰地看到,Iveco凭借其卓越的市场洞察力和精准...
01:43
2025年7月31日,人工智能超低功率半导体领域的领军企业Ambiq Micro(AMBQ)在美国成功完成首次公开募股,开盘价高达38美元,较其24美元的发行价实现了显著溢价。这一强劲表现迅速吸引了市场关注,股价在交易盘中一度飙升,涨幅扩大至惊人的74.17%。然而,如此剧烈的价格波动引发了监管层的关注,为确保市场稳定,交易所决定临时暂停该股票的交易活动。此...
01:43
7月30日,美联储公布的隔夜逆回购协议(RRP)使用规模录得1554.81亿美元,较前一交易日的1710.18亿美元呈现明显回落。这一数据变化不仅揭示了市场短期资金流动性的微妙调整,更反映出当前经济环境下资金供需关系的动态变化。从宏观层面来看,RRP使用规模的缩减可能暗示着市场参与者对短期资金的配置策略正在发生转变,部分机构可能正逐步调整其流动性管理策略。这...
01:43
2025年7月30日夜间交易时段,国际铜价出现小幅回调,最终收跌0.46%。受此影响,沪铜、沪铝、沪锌等主要金属品种价格均呈现不同程度的下行走势。其中,沪镍表现最为疲软,跌幅高达0.90%,成为夜盘交易中的重灾区。与此同时,氧化铝价格在夜盘阶段遭遇重挫,跌幅达到惊人的2.38%。不锈钢价格也未能幸免,夜盘收盘时下跌了0.50%。这一系列金属价格的普遍下跌,反...
01:43
阿斯顿·马丁F1车队近日宣布了一项引人注目的资本运作计划——以约32亿美元的估值出售部分股权,这一消息迅速在金融界掀起波澜。尽管车队目前在F1积分榜上位列第八,但这一交易却传递出资本市场对其未来商业价值的强烈信心。据悉,该车队已经与潜在买家签署了具有法律约束力的意向书,交易进程正在稳步推进中。这一事件不仅凸显了F1资产在投资领域的独特魅力,更反映出全球资本市...
01:43
7月30日,星巴克首席执行官布莱恩・尼科尔在公开讲话中透露了公司即将推出的创新产品计划,旨在进一步满足消费者对健康饮食的需求。据悉,星巴克将在本季度末特别推出一款含有15克蛋白质的冷泡奶盖,同时同步研发无麸质、高蛋白的食品系列,以精准契合当下消费者对蛋白质摄入的广泛关注。这一系列新品发布是星巴克菜单更新计划的重要组成部分,通过丰富产品线来吸引更多顾客到店体验...