OpenAI重磅发布ChatGPT Agent通用智能体实现复杂任务自动化

2025-07-18 09:14:41 互联网 42 次阅读

Agent AI 时代已经悄然来临，其发展速度远超我们的预期。就在北京时间周五凌晨，OpenAI 突然开启了新产品直播，正式发布了全新的 ChatGPT Agent。这一全新升级不仅实现了通用智能体（Agent）能力的突破，更标志着 AI 技术迈入了一个全新的阶段。

与以往单纯的大模型升级不同，通用 Agent 能够自动整合多种工具，通过智能规划协助人们完成各种复杂任务。无论是自动浏览用户日历、生成可编辑的 PPT，还是运行代码，ChatGPT Agent 都能轻松应对。它能够无缝连接 Gmail、GitHub 等平台获取信息并解决问题，通过 API 访问各类应用，为用户带来前所未有的智能体验。

在性能表现上，ChatGPT Agent 更是实现了大幅飞跃。基于该 Agent 的模型在 HLE 基准测试中取得了 41.6% 的优异成绩，是 o3 和 o4-mini 模型的近两倍。目前，ChatGPT Agent 已向 OpenAI Pro、Plus 和 Team 计划的订阅用户开放，用户只需在 ChatGPT 的工具下拉菜单中选择「Agent 模式」即可体验。OpenAI 表示，企业版和教育版用户预计将于夏季晚些时候获得该功能。Pro 用户每月可使用 400 次 Agent 提示，其他付费用户则最多可使用 40 次，而面向 ChatGPT 免费用户的推出时间尚不明确。

这是 OpenAI 迄今最为大胆的一次新产品发布。从此以后，ChatGPT 不再仅仅是一款回答问题的工具，而是成为了一款能够为人们采取行动、分担任务的智能 Agent 产品。OpenAI CEO 山姆・奥特曼（Sam Altman）表示，看着 ChatGPT 智能体使用计算机执行复杂任务，让他真正感受到了 AGI 的魅力，计算机的思考、计划和执行能力带来了前所未有的震撼体验。

ChatGPT 现在可以使用自己的虚拟电脑为用户处理复杂任务，实现从始至终的全流程自动化。用户不仅可以让 ChatGPT 执行「查询年度财务报告」等请求，还能智能浏览网站、筛选结果，在需要时安全登录，运行代码、进行分析，甚至交付可编辑的幻灯片和电子表格，全面总结研究成果。

以「ChatGPT Agent 搜索查询旧金山市年度综合财务报告（2020-2024年）」为例，只需简单输入提示，ChatGPT Agent 就能迅速完成信息检索和整理工作。再比如，输入「我是一位网球迷，想去棕榈泉观看网球比赛，特别是在半决赛/决赛期间。我住在旧金山，请帮我制定一份详细的三天行程，包括航班安排、酒店预订、活动内容（比赛、徒步、美食、水疗等）。我喜欢徒步旅行、纯素食餐厅和水疗。总预算为3000美元。这份行程需要包括:精确的时间安排;每项活动的内容、费用和其他细节;如有需要，提供购票或预订链接」，ChatGPT Agent 将为你量身定制完美行程。

这一新能力的核心是一个统一的智能 agentic 系统，它巧妙结合了 Operator 的网站交互能力、deep research 的信息综合能力，以及 ChatGPT 的智能推理与对话能力。ChatGPT 借助自己的虚拟计算环境，在推理与执行之间灵活切换，根据用户指令，从头到尾处理复杂的工作流程。最重要的是，用户始终掌控全局。ChatGPT 会在执行任何重要操作前征求许可，用户也可以随时中断任务、接管浏览器或停止运行。

OpenAI 表示，虽然 ChatGPT Agent 已经能够应对复杂任务，但这只是开始。他们将持续迭代、定期推出重大改进，让 ChatGPT Agent 变得更加强大、更加实用，服务于更多用户。

Operator 与深度研究的自然进化

过去，Operator 和 deep research 各自拥有独特优势：Operator 能够在网页上滚动、点击和输入，而 deep research 擅长分析和总结信息。然而，二者在不同场景下才发挥最大作用，各有不擅长的领域。Operator 无法深入分析或撰写详细报告，而 deep research 又无法与网页交互、进一步筛选结果或访问需要用户登录的内容。OpenAI 发现，许多用户尝试用 Operator 处理的任务，其实更适合用 deep research，因此决定将二者的优势整合在一起。

通过将这些互补能力集成进 ChatGPT，并引入更多工具，OpenAI 在一个模型中解锁了全新的能力。它现在可以主动与网站交互——点击、筛选并收集更精准、高效的结果。用户也可以在同一个对话中，从自然的交流无缝过渡到发出具体操作请求。

OpenAI 为 ChatGPT Agent 配备了一整套工具：包括一个通过图形用户界面与网页交互的可视化浏览器、一个用于处理简单推理类网页查询的文本浏览器、一个终端（命令行界面），以及直接调用 API 的能力。该 agent 还可以利用 ChatGPT Connectors，将 Gmail、GitHub 等应用连接进来，使 ChatGPT 能够查找与提示相关的信息，并将其用于回答中。用户也可以通过接管浏览器，在任意网站上登录账户，从而帮助它在信息检索和任务执行方面更深入、更广泛。

为 ChatGPT 提供多种访问和交互网页信息的方式，意味着 ChatGPT Agent 能够选择最优路径，以最高效地完成任务。例如，它可以通过 API 获取用户的日历信息，使用文本浏览器高效处理大量文本内容，同时也具备通过可视化界面与专为人类设计的网站进行交互的能力。所有这些操作都是在 ChatGPT Agent 自己的虚拟计算机上完成的，这可以在使用多个工具时保留任务所需的上下文信息。ChatGPT Agent 可以根据需要选择用文本浏览器或可视化浏览器打开网页，从网上下载文件，在终端中运行命令处理文件，然后再通过可视化浏览器查看输出结果。同时也会根据任务调整策略，以快速、准确和高效地执行。

ChatGPT Agent 专为迭代式、协作式的工作流程而设计，远比以往的模型更加互动和灵活。在 ChatGPT 执行任务的过程中，用户可以随时打断它，进一步澄清指令，令其朝着期望的方向发展，或完全更换任务内容。它会在新的信息基础上继续工作，而不会丢失此前的进度。同样地，ChatGPT 也会在需要时主动向用户请求更多细节，以确保任务始终与目标保持一致。如果某项任务耗时超出预期或陷入停滞，用户可以选择暂停任务、请求进度摘要，或者直接终止任务并获取当前已有的部分结果。如果用户在手机上安装了 ChatGPT 应用，它还会在任务完成后发送通知。

基准测试结果：拓展现实世界的实用性

ChatGPT Agent 及背后模型的能力提升体现在多个基准测试中的顶尖表现，评估内容包括网页浏览和现实世界任务的完成能力。其中在「人类最后考试」（Humanity’s Last Exam）评估中，支持 ChatGPT Agent 的模型在该评估中的 Pass@1分数为 41.6。由于该 Agent 能够动态规划并自主选择工具，它可以通过不同的方式处理相同的任务。在通过简单的并行策略进行扩展时——同时运行最多八次尝试并选择自我报告信心最高的结果——该 Agent 的 HLE 得分提高到了 44.4。

FrontierMath 是目前已知最难的数学基准测试，包含全新且未公开发表的问题，通常需要数学专家花费数小时甚至数天才能解决。在具备工具使用能力（例如可访问终端以执行代码）的情况下，ChatGPT Agent 在该测试中达到了 27.4% 的准确率，远远超越此前的所有模型。

OpenAI 还使用模拟复杂真实任务的基准测试对该模型进行了评估。在一个用于评估模型在复杂、具有经济价值的知识型工作任务中表现的内部基准中，ChatGPT Agent 的输出在大约一半的情况下可与人类相媲美，甚至优于人类，任务完成时间范围不等，并且显著优于 o3 和 o4-mini 模型。

在 DSBench 基准测试中，用于评估 Agent 在涵盖数据分析与建模的真实数据科学任务的表现。ChatGPT Agent 超越了人类的平均表现，且优势明显。在 SpreadsheetBench 基准测试中，用于评估模型处理真实场景电子表格编辑任务的能力。ChatGPT Agent 表现远超现有模型。当赋予直接编辑电子表格的能力时，它的得分更是高达 45.5%，而 Excel 中的 Copilot 仅为 20.0%。

方法概览如下：SpreadsheetBench 的作者使用的是基于 Windows 系统的 Microsoft Excel 环境来评估电子表格任务。而 OpenAI 使用的是 macOS 系统和 LibreOffice，这可能会导致评分上的细微差异。例如，作者报告 GPT-4o 在「整体高难度限制」项上的得分为 15.02%，而 OpenAI 测得的结果为 13.38%。OpenAI 使用的是包含全部 912 道题目的完整基准测试集。

在一个内部基准测试中，OpenAI 评估了模型处理投资银行分析师一至三年级建模任务的能力，例如：为一家《财富》500 强公司制作带有规范格式和引用的三大财务报表模型。ChatGPT Agent 所依托的模型在这一评估中显著优于 deep research 和 o3。

OpenAI 还在 BrowseComp 基准测试中评估了 ChatGPT Agent。该基准由 OpenAI 于今年早些时候发布，用于衡量浏览型 Agent 在网络上查找难以获取信息的能力。ChatGPT Agent 在该测试中创下了新的 SOTA（当前最优表现），得分为 68.9%，比 deep research 高出 17.4 个百分点。

最后，在 WebArena 基准测试中，用于评估网页浏览型 Agent 完成真实网页任务的能力。ChatGPT Agent 在表现上超越了由 o3 驱动的 CUA（即驱动 Operator 的模型）。

山姆・奥特曼发表了一篇长推介绍了 ChatGPT Agent 的安全限制。Agent 代表了 AI 系统能力的新高度，它能够利用自身的计算机为你完成一些特殊而复杂的任务。它融合了 Deep Research 和 Operator 的精髓，但实际功能远超想象——它可以进行长时间思考，使用一些工具，进行更深入的思考，采取一些行动，再进行更深入的思考等等。例如，我们在发布会上展示了一个为朋友的婚礼做准备的演示：购买服装、预订行程、挑选礼物等等。我们还展示了一个分析数据并创建工作演示文稿的示例。尽管其效用很大，但潜在的风险也很大。我们已在其中构建了大量的安全措施和警告，以及比以往任何时候都更广泛的缓解措施，从强大的训练到系统安全措施再到用户控制，但我们无法预见一切。本着迭代部署的精神，我们将向用户发出很多警告，并给予用户自主选择是否谨慎采取行动的自由。我会向我的家人解释这是前沿和实验性的。这是一个尝试未来的机会，但在我们有机会在现实世界研究和改进它之前，我不会将它用于高风险用途或获取大量个人信息。我们尚不清楚具体会造成什么影响，但恶意行为者可能会试图「诱骗」用户的 AI Agent，使其提供不该提供的隐私信息，并采取不该采取的行动，而这些行为的方式我们无法预测。我们建议授予 Agent 完成任务所需的最低访问权限，以降低隐私和安全风险。例如，我可以授权 Agent 访问我的日历，以便安排一个合适的聚餐时间。但如果我只是让它帮我买衣服，就不需要授予它任何访问权限。诸如「查看我昨晚收到的电子邮件，并采取一切必要措施处理，不要问任何后续问题」之类的任务风险更大。这可能会导致恶意电子邮件中不可信的内容诱骗模型泄露你的数据。我们认为，重要的是从接触现实开始学习，并且随着我们更好地量化和降低潜在风险，人们应该谨慎而缓慢地采用这些工具。与其他新的能力水平一样，社会、技术和风险缓解策略需要共同发展。

网友一手体验

至于这款 Agent 是否好用，不少网友现身说法。X 网友 @rowancheung 提前获得访问权限，并让 ChatGPT Agent 在 20 分钟内为他创建一个完整的提前退休计划。拿到任务，ChatGPT Agent 就开始查找温哥华的当地税法、分析平均每月支出率、计算 30 岁退休所需的储蓄金额、研究最佳投资分配，还发现了 Rowan 从未听说过的税务优化策略、构建多种财务独立提前退休（FIRE）场景，最终创建一个可下载的演示文稿，总结结果。Rowan 表示，这项工作如果由财务顾问完成，可能会花费 5000 美元以上，并且需要数周时间。其中电子表格和幻灯片生成能力确实不错，但与 Manus 或 Genspark 等工具得到的结果类似。于是，Genspark 联合创始人、CEO Eric Jing 将 Rowan Cheung 的提示词进行了 OCR，并将其输入到 Genspark 中。他表示，在相同的提示下，Genspark 仅用了一小部分时间和成本，就生成了比 ChatGPT Agent 质量高得多的结果。

还有网友让 ChatGPT Agent 去 Tesco 食品店完成购物，订购烤肉晚餐和粘稠焦糖布丁。他给出的提示词也相当简单：「Help me do a tesco shop for a roast dinner this weekend for two people. Include a treat for desert。」「我看着它浏览网站、提示我输入登录信息、将商品加入购物车，并自主完成整个过程，真是太不可思议了。」不过，该网友也坦言，ChatGPT Agent 干活的整个过程大约花了 20 分钟，如果自己手动操作可能会更高效一些，未来还有改进的空间。

OpenAI重磅发布ChatGPT Agent通用智能体实现复杂任务自动化

最新快讯

2026年02月13日

苹果推送AirPods Pro 2/3及AirPods 4测试固件8B5034f优化通信与音频功能

全球首款吸入式肺癌基因疗法获FDA快速审批通道突破

淡水河谷2025年四季度净亏损38.4亿美元铁矿石价格波动致业绩不及预期

激活特定神经通路快速减脂不需节食研究新突破

优刻得3月全面涨价云计算行业结构性提价周期开启

小红书新规：AI生成内容必须主动标识以维护平台信任

江苏扬镇±200千伏直流输电二期工程投产首个交直流混联跨江工程助力长三角清洁电力输送

奔驰美国召回11895辆EQB车型高压电池起火风险隐患

2025年Q4全球CPU市场回暖服务器增长强劲 AMD份额攀升

OpenAI与Cerebras联合发布GPT-5.3-Codex-Spark实时编程模型

谷歌发布Gemini 3 Deep Think推理模式助力科研与工程应用

微软推送Windows 11 Canary Build 28020.1611预览版新功能更新

OpenAI重磅发布ChatGPT Agent通用智能体 实现复杂任务自动化

最新快讯

2026年02月13日

OpenAI重磅发布ChatGPT Agent通用智能体实现复杂任务自动化