OpenAI发布GPT-5.4：专业工作模型对标Kimi K2.5与MiniMax M2.5

2026-03-09 12:45:10 互联网 2 次阅读

微新创想：OpenAI 正式发布 GPT-5.4，将 AI 推向专业工作新阶段

OpenAI 在 3 月 5 日推出了 GPT-5.4，这是他们首次将 AI 定位为“面向专业工作的最强、最高效 frontier model”。与以往单纯提升模型性能不同，这次的更新更加聚焦于 AI 在实际工作场景中的应用。GPT-5.4 不仅整合了 reasoning、coding 和 agentic workflow 的能力，还特别强化了表格、文档、演示文稿等专业任务的处理能力。

GPT-5.4Pro 也同步推出，作为更高性能版本，它适用于最复杂、最长链路的任务。用户可以在 ChatGPT 和 API 中使用这一版本。此外，OpenAI 还在 ChatGPT 中上线了 GPT-5.4Thinking，支持用户在模型思考前提供简短计划，并在过程中实时补充指令，修正方向。

在 API 和 Codex 侧，GPT-5.4 补齐了 agent 能力。它成为 OpenAI 首个具备原生、SOTA 级 computer use 能力的通用模型，同时支持高达 1,050,000 token 的上下文窗口。这一能力的提升，让 GPT-5.4 更接近“可以自己去做”的智能体。

OpenAI 还发布了 ChatGPT for Excel 和金融数据集成。前者允许用户在 Excel 工作簿中直接调用 ChatGPT 进行建模、更新模型和运行情景分析。后者则整合了 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等金融数据源，让用户在一个工作流中完成数据获取、分析和输出。

这一系列发布标志着 OpenAI 在模型研发思路上的明显转变。他们不再主打“聊天”，而是聚焦“专业工作”。GPT-5.4 的优化方向围绕真实职业场景中的复杂产出，如表格、文档、PPT、跨工具任务和长流程执行。这意味着它的目标用户已经明确：不仅是普通用户，更是分析师、研究员、法务、开发者、金融从业者等需要复杂知识工作的团队。

知识工作能力的增强，尤其是表格和演示文稿处理，是 GPT-5.4 的一大亮点。在 GDPval 这个测试 44 种职业真实工作产出的 benchmark 上，GPT-5.4 的成绩达到 83.0% 胜利或平局，相比 GPT-5.2 的 70.9% 明显提升。这个 benchmark 测试的不是考试题，而是像销售演示、会计表格、排班表、制造流程图、短视频等实际工作成果。

在金融分析场景中，GPT-5.4 的能力得到了充分展示。ChatGPT for Excel 的推出，意味着模型可以直接进入 Excel 工作流，帮助用户构建和更新模型、运行情景分析，并根据单元格和公式生成输出。这一功能对于金融分析、投研、企业 FP&A、咨询等岗位具有重要意义。

在法律工作方面，GPT-5.4 也表现出色。根据 Harvey 的反馈，GPT-5.4 在 BigLaw Bench 上获得了 91% 的成绩，且在复杂交易分析、长合同中的准确性保持和细节密度上优于其他模型。这表明 GPT-5.4 不仅提升了写作能力，还开始在对结构、严谨性和细节一致性要求更高的文档密集型工作中发挥作用。

在网页和软件操作方面，GPT-5.4 能够根据浏览器截图进行界面理解，并通过坐标点击来执行任务，如发送邮件和安排日历事件。Mainstay 的测试结果显示，在大约 3 万个 HOA 和 property tax portals 的评测中，GPT-5.4 的首次尝试成功率达到 95%，三次尝试内达到 100%，同时速度提升约 3 倍，token 使用量减少约 70%。这说明 GPT-5.4 不仅能解释“怎么做”，还能直接“去做”。

在编码和前端开发方面，GPT-5.4 不仅继承了 GPT-5.3-Codex 的强编码能力，还在长时程任务中表现更佳。它可以调用工具、迭代执行，并推动任务向前发展。在 SWE-Bench Pro（Public）上，GPT-5.4 达到 57.7%，略高于 GPT-5.3-Codex 的 56.8%。更值得注意的是，GPT-5.4 在复杂前端任务上的表现明显优于以往版本，产出的结果更美观、更可用。

官方还演示了 GPT-5.4 结合 Playwright Interactive 一边构建网页/应用，一边进行可视化调试和测试。这意味着 GPT-5.4 的“编码能力”已经不只是代码补全，而是更接近完整的软件生产链路。例如，它可以根据一个略微指定的提示制作主题公园模拟游戏，通过 Playwright Interactive 进行浏览器测试和图像生成来构建等距资产集。

GPT-5.4 的能力提升，也让人联想到近期在 agent 领域表现突出的开源模型，如 Kimi K2.5 和 MiniMax M2.5。这些模型一直专注于将多种 agent 能力整合到一个统一的架构中，而 GPT-5.4 的发布，似乎是在向它们致敬。它通过多模态和视觉能力完成操控任务，同时在模型内部增加了对工具和环境的理解能力，而不是简单地按指令调用。

OpenAI 这次的发布，不仅在技术上有所突破，也在战略上做出了调整。他们开始借鉴开源模型的方法，同时也在价格上保持了 OpenAI 的一贯风格。GPT-5.4 支持文本和图像输入、文本输出，拥有 1,050,000 token 的上下文窗口和 128,000 的最大输出 token。价格方面，每百万输入 token 为 2.50 美元，输出为 15.00 美元。GPT-5.4Pro 则仅向 Pro、Business、Enterprise 和 Edu 计划开放，适用于最难的任务和长流程工作。

这一系列更新，标志着 OpenAI 在 AI 专业工作方向上的重要进展。他们正在努力让 AI 不仅“会说话”，还能“做事”，真正成为用户在复杂任务中的得力助手。