
微新创想:OpenAI 正式发布 GPT-5.4,将 AI 推向专业工作新阶段

OpenAI 在 3 月 5 日推出了 GPT-5.4,这是他们首次将 AI 定位为“面向专业工作的最强、最高效 frontier model”。与以往单纯提升模型性能不同,这次的更新更加聚焦于 AI 在实际工作场景中的应用。GPT-5.4 不仅整合了 reasoning、coding 和 agentic workflow 的能力,还特别强化了表格、文档、演示文稿等专业任务的处理能力。
GPT-5.4Pro 也同步推出,作为更高性能版本,它适用于最复杂、最长链路的任务。用户可以在 ChatGPT 和 API 中使用这一版本。此外,OpenAI 还在 ChatGPT 中上线了 GPT-5.4Thinking,支持用户在模型思考前提供简短计划,并在过程中实时补充指令,修正方向。

在 API 和 Codex 侧,GPT-5.4 补齐了 agent 能力。它成为 OpenAI 首个具备原生、SOTA 级 computer use 能力的通用模型,同时支持高达 1,050,000 token 的上下文窗口。这一能力的提升,让 GPT-5.4 更接近“可以自己去做”的智能体。
OpenAI 还发布了 ChatGPT for Excel 和金融数据集成。前者允许用户在 Excel 工作簿中直接调用 ChatGPT 进行建模、更新模型和运行情景分析。后者则整合了 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等金融数据源,让用户在一个工作流中完成数据获取、分析和输出。

这一系列发布标志着 OpenAI 在模型研发思路上的明显转变。他们不再主打“聊天”,而是聚焦“专业工作”。GPT-5.4 的优化方向围绕真实职业场景中的复杂产出,如表格、文档、PPT、跨工具任务和长流程执行。这意味着它的目标用户已经明确:不仅是普通用户,更是分析师、研究员、法务、开发者、金融从业者等需要复杂知识工作的团队。
知识工作能力的增强,尤其是表格和演示文稿处理,是 GPT-5.4 的一大亮点。在 GDPval 这个测试 44 种职业真实工作产出的 benchmark 上,GPT-5.4 的成绩达到 83.0% 胜利或平局,相比 GPT-5.2 的 70.9% 明显提升。这个 benchmark 测试的不是考试题,而是像销售演示、会计表格、排班表、制造流程图、短视频等实际工作成果。

在金融分析场景中,GPT-5.4 的能力得到了充分展示。ChatGPT for Excel 的推出,意味着模型可以直接进入 Excel 工作流,帮助用户构建和更新模型、运行情景分析,并根据单元格和公式生成输出。这一功能对于金融分析、投研、企业 FP&A、咨询等岗位具有重要意义。
在法律工作方面,GPT-5.4 也表现出色。根据 Harvey 的反馈,GPT-5.4 在 BigLaw Bench 上获得了 91% 的成绩,且在复杂交易分析、长合同中的准确性保持和细节密度上优于其他模型。这表明 GPT-5.4 不仅提升了写作能力,还开始在对结构、严谨性和细节一致性要求更高的文档密集型工作中发挥作用。

在网页和软件操作方面,GPT-5.4 能够根据浏览器截图进行界面理解,并通过坐标点击来执行任务,如发送邮件和安排日历事件。Mainstay 的测试结果显示,在大约 3 万个 HOA 和 property tax portals 的评测中,GPT-5.4 的首次尝试成功率达到 95%,三次尝试内达到 100%,同时速度提升约 3 倍,token 使用量减少约 70%。这说明 GPT-5.4 不仅能解释“怎么做”,还能直接“去做”。
在编码和前端开发方面,GPT-5.4 不仅继承了 GPT-5.3-Codex 的强编码能力,还在长时程任务中表现更佳。它可以调用工具、迭代执行,并推动任务向前发展。在 SWE-Bench Pro(Public)上,GPT-5.4 达到 57.7%,略高于 GPT-5.3-Codex 的 56.8%。更值得注意的是,GPT-5.4 在复杂前端任务上的表现明显优于以往版本,产出的结果更美观、更可用。

官方还演示了 GPT-5.4 结合 Playwright Interactive 一边构建网页/应用,一边进行可视化调试和测试。这意味着 GPT-5.4 的“编码能力”已经不只是代码补全,而是更接近完整的软件生产链路。例如,它可以根据一个略微指定的提示制作主题公园模拟游戏,通过 Playwright Interactive 进行浏览器测试和图像生成来构建等距资产集。
GPT-5.4 的能力提升,也让人联想到近期在 agent 领域表现突出的开源模型,如 Kimi K2.5 和 MiniMax M2.5。这些模型一直专注于将多种 agent 能力整合到一个统一的架构中,而 GPT-5.4 的发布,似乎是在向它们致敬。它通过多模态和视觉能力完成操控任务,同时在模型内部增加了对工具和环境的理解能力,而不是简单地按指令调用。
OpenAI 这次的发布,不仅在技术上有所突破,也在战略上做出了调整。他们开始借鉴开源模型的方法,同时也在价格上保持了 OpenAI 的一贯风格。GPT-5.4 支持文本和图像输入、文本输出,拥有 1,050,000 token 的上下文窗口和 128,000 的最大输出 token。价格方面,每百万输入 token 为 2.50 美元,输出为 15.00 美元。GPT-5.4Pro 则仅向 Pro、Business、Enterprise 和 Edu 计划开放,适用于最难的任务和长流程工作。
这一系列更新,标志着 OpenAI 在 AI 专业工作方向上的重要进展。他们正在努力让 AI 不仅“会说话”,还能“做事”,真正成为用户在复杂任务中的得力助手。
