OpenAI发布GPT-5.4:专业工作模型对标Kimi K2.5与MiniMax M2.5

微新创想:OpenAI 正式发布 GPT-5.4,将 AI 推向专业工作新阶段

OpenAI发布GPT-5.4:专业工作模型对标Kimi K2.5与MiniMax M2.5插图1

OpenAI 在 3 月 5 日推出了 GPT-5.4,这是他们首次将 AI 定位为“面向专业工作的最强、最高效 frontier model”。与以往单纯提升模型性能不同,这次的更新更加聚焦于 AI 在实际工作场景中的应用。GPT-5.4 不仅整合了 reasoning、coding 和 agentic workflow 的能力,还特别强化了表格、文档、演示文稿等专业任务的处理能力。

GPT-5.4Pro 也同步推出,作为更高性能版本,它适用于最复杂、最长链路的任务。用户可以在 ChatGPT 和 API 中使用这一版本。此外,OpenAI 还在 ChatGPT 中上线了 GPT-5.4Thinking,支持用户在模型思考前提供简短计划,并在过程中实时补充指令,修正方向。

OpenAI发布GPT-5.4:专业工作模型对标Kimi K2.5与MiniMax M2.5插图2

在 API 和 Codex 侧,GPT-5.4 补齐了 agent 能力。它成为 OpenAI 首个具备原生、SOTA 级 computer use 能力的通用模型,同时支持高达 1,050,000 token 的上下文窗口。这一能力的提升,让 GPT-5.4 更接近“可以自己去做”的智能体。

OpenAI 还发布了 ChatGPT for Excel 和金融数据集成。前者允许用户在 Excel 工作簿中直接调用 ChatGPT 进行建模、更新模型和运行情景分析。后者则整合了 FactSet、Dow Jones Factiva、LSEG、Daloopa、S&P Global 等金融数据源,让用户在一个工作流中完成数据获取、分析和输出。

OpenAI发布GPT-5.4:专业工作模型对标Kimi K2.5与MiniMax M2.5插图3

这一系列发布标志着 OpenAI 在模型研发思路上的明显转变。他们不再主打“聊天”,而是聚焦“专业工作”。GPT-5.4 的优化方向围绕真实职业场景中的复杂产出,如表格、文档、PPT、跨工具任务和长流程执行。这意味着它的目标用户已经明确:不仅是普通用户,更是分析师、研究员、法务、开发者、金融从业者等需要复杂知识工作的团队。

知识工作能力的增强,尤其是表格和演示文稿处理,是 GPT-5.4 的一大亮点。在 GDPval 这个测试 44 种职业真实工作产出的 benchmark 上,GPT-5.4 的成绩达到 83.0% 胜利或平局,相比 GPT-5.2 的 70.9% 明显提升。这个 benchmark 测试的不是考试题,而是像销售演示、会计表格、排班表、制造流程图、短视频等实际工作成果。

OpenAI发布GPT-5.4:专业工作模型对标Kimi K2.5与MiniMax M2.5插图4

在金融分析场景中,GPT-5.4 的能力得到了充分展示。ChatGPT for Excel 的推出,意味着模型可以直接进入 Excel 工作流,帮助用户构建和更新模型、运行情景分析,并根据单元格和公式生成输出。这一功能对于金融分析、投研、企业 FP&A、咨询等岗位具有重要意义。

在法律工作方面,GPT-5.4 也表现出色。根据 Harvey 的反馈,GPT-5.4 在 BigLaw Bench 上获得了 91% 的成绩,且在复杂交易分析、长合同中的准确性保持和细节密度上优于其他模型。这表明 GPT-5.4 不仅提升了写作能力,还开始在对结构、严谨性和细节一致性要求更高的文档密集型工作中发挥作用。

OpenAI发布GPT-5.4:专业工作模型对标Kimi K2.5与MiniMax M2.5插图5

在网页和软件操作方面,GPT-5.4 能够根据浏览器截图进行界面理解,并通过坐标点击来执行任务,如发送邮件和安排日历事件。Mainstay 的测试结果显示,在大约 3 万个 HOA 和 property tax portals 的评测中,GPT-5.4 的首次尝试成功率达到 95%,三次尝试内达到 100%,同时速度提升约 3 倍,token 使用量减少约 70%。这说明 GPT-5.4 不仅能解释“怎么做”,还能直接“去做”。

在编码和前端开发方面,GPT-5.4 不仅继承了 GPT-5.3-Codex 的强编码能力,还在长时程任务中表现更佳。它可以调用工具、迭代执行,并推动任务向前发展。在 SWE-Bench Pro(Public)上,GPT-5.4 达到 57.7%,略高于 GPT-5.3-Codex 的 56.8%。更值得注意的是,GPT-5.4 在复杂前端任务上的表现明显优于以往版本,产出的结果更美观、更可用。

OpenAI发布GPT-5.4:专业工作模型对标Kimi K2.5与MiniMax M2.5插图6

官方还演示了 GPT-5.4 结合 Playwright Interactive 一边构建网页/应用,一边进行可视化调试和测试。这意味着 GPT-5.4 的“编码能力”已经不只是代码补全,而是更接近完整的软件生产链路。例如,它可以根据一个略微指定的提示制作主题公园模拟游戏,通过 Playwright Interactive 进行浏览器测试和图像生成来构建等距资产集。

GPT-5.4 的能力提升,也让人联想到近期在 agent 领域表现突出的开源模型,如 Kimi K2.5 和 MiniMax M2.5。这些模型一直专注于将多种 agent 能力整合到一个统一的架构中,而 GPT-5.4 的发布,似乎是在向它们致敬。它通过多模态和视觉能力完成操控任务,同时在模型内部增加了对工具和环境的理解能力,而不是简单地按指令调用。

OpenAI 这次的发布,不仅在技术上有所突破,也在战略上做出了调整。他们开始借鉴开源模型的方法,同时也在价格上保持了 OpenAI 的一贯风格。GPT-5.4 支持文本和图像输入、文本输出,拥有 1,050,000 token 的上下文窗口和 128,000 的最大输出 token。价格方面,每百万输入 token 为 2.50 美元,输出为 15.00 美元。GPT-5.4Pro 则仅向 Pro、Business、Enterprise 和 Edu 计划开放,适用于最难的任务和长流程工作。

这一系列更新,标志着 OpenAI 在 AI 专业工作方向上的重要进展。他们正在努力让 AI 不仅“会说话”,还能“做事”,真正成为用户在复杂任务中的得力助手。

最新快讯

2026年03月09日

13:56
微新创想:每天早上9点半,在“餐饮干货直播间”里,随着战歌《Andalusia》响起,配上“勇哥”的经典开场白“来,镜头高一点360度原地转个圈”,一位餐饮从业者的命运就此明了——“勇哥”若说“做不了”,那自己租下的铺子就算白搭;若说“没问题”,那么连线者才堪堪可以把心放回肚子里,继续聆听“勇哥”关于开店的各种建议。当然,若是“勇哥”眉头紧拧,抄起锣鼓敲打,...
13:56
声明:本文来自于微信公众号 新榜,作者:云飞扬1993,授权站长之家转载发布。最近,短剧圈迎来一波大洗牌。这边厢,红果短剧取消中小承制方保底机制、暂停真人短剧选本,话题#红果停了很多项目登上微博热搜;那边厢,“真人短剧90%亏损”、“某头部短剧公司因真人短剧项目亏损7亿元”等传言甚嚣尘上。叠加年前即梦接入Seedance2.0后...
13:56
微新创想:所有生意都可以通过AI再做一遍。这一次,故事从最熟悉的输入键盘开始。当我们敲击键盘、点击语音,那个容易被忽视的输入法正在悄然间发生变化——输入法能听懂更多方言、能把口语化表述自动换行整理成书面语,甚至还能自己帮自己写文案、续写……输入法变得越来越「聪明」的背后,是各家厂商正将最新的大模型技术,悄悄放进这个每天使用几十上百次的工具里。 过去,输入法争...
13:56
微新创想:春节早已成为游戏宣发的必争战场。当年轻人在虚拟世界里过年、组队开黑、刷二创内容成为常态,游戏与内容平台的关系也彻底发生了变化。2026年春节,抖音、快手、小红书纷纷亮出杀手锏,从简单流量投放,转向场景渗透、社交绑定与长线经营。一场围绕玩家、内容、生态的新战役,正在拉开序幕。 抢滩游戏宣发阵地 当下年轻人的年味,自然离不开游戏。刚刚过去的春节,有人参...
13:55
微新创想:2026年3月8日,上海和辉光电股份有限公司通过港交所上市聆讯,中金公司担任其独家保荐人。这一消息标志着公司在资本市场迈出了重要一步,为未来发展注入了新的动力。 该公司成立于2012年10月,专注于中大尺寸AMOLED显示面板的研发与制造。凭借领先的技术实力和完善的产业链布局,和辉光电在国内市场占据了重要地位。2024年,其销量位居国内首位,展现出...
13:55
微新创想:2026年3月10日,江苏朗信电气股份有限公司将上会接受北交所上市审核。公司主营热管理系统电驱动零部件研发与生产,专注于新能源汽车及储能系统等领域的关键部件制造。近年来,随着新能源产业的快速发展,朗信电气迎来了显著的增长机遇。 2022—2024年公司营收由6.68亿元增至13.01亿元,展现出强劲的市场拓展能力和盈利能力。2025年上半年,公司再...
13:55
微新创想:2026年3月6日,重庆臻宝科技股份有限公司IPO审核状态变更为“提交注册”,拟登陆上交所科创板。公司专注半导体及显示面板设备真空腔体核心零部件研发制造,产品覆盖14nm及以下先进制程。 微新创想:2025年公司实现营收8.68亿元、归母净利润2.26亿元,展现出强劲的盈利能力。在硅和石英零部件领域,公司国内市占率分别达到4.5%和8.8%,位居行...
13:55
微新创想:3月9日,文远知行与吉利远程新能源商用车集团签署战略合作深化协议,共同发布全新升级版前装量产Robotaxi GXR。此次合作标志着双方在自动驾驶与智能出行领域迈出了重要一步,进一步推动了无人驾驶技术的商业化进程。 该车型计划于2026年第三季度正式下线,预计在当年内向国内外市场交付2000台。这一数量将显著提升文远知行在Robotaxi领域的市场...
13:55
微新创想:2026年3月,国内锂电行业呈现“淡季不淡”特征,排产环比增长11%—22%。碳酸锂等上游资源品价格上涨,带动全产业链价格回暖。行业整体表现出较强的抗周期能力,市场需求依然旺盛,推动企业积极扩产。 全年看,六氟磷酸锂(6F)、隔膜、铜铝箔等关键环节具备明显的涨价弹性。这些材料作为锂电产业链的核心组成部分,其价格波动直接影响下游电池制造企业的成本结构...
13:55
微新创想:3月13日,广州科莱瑞迪医疗器材股份有限公司向北交所提交上市申请并获安排上会。公司拟公开发行不超过1480万股(不含超额配售)或1702万股(含全额超额配售),募集资金约2.59亿元。该资金将主要用于放疗定位及康复产品总部建设、复合材料产线扩建及研发中心项目。保荐机构为中国银河证券。 作为国家级专精特新“小巨人”企业,科莱瑞迪专注于放射治疗与康复治...
13:55
微新创想:2026年3月13日 襄阳正大种业股份有限公司向北交所提交上市申请并获安排上会 公司拟公开发行新股不超过4804.95万股(不含超额配售)募资约2.83亿元 用于云南种子加工中心及张掖玉米加工二期项目 保荐机构为中信证券 正大种业是国家级农业产业化龙头企业 专注玉米种子“育繁推一体化”业务 公司拥有68项植物新品种授权 71个在售审定品种 覆盖全国...
13:55
微新创想:Visa于3月9日宣布推出Visa智能授权解决方案 Visa智能授权解决方案是基于Visa支付受理平台打造的创新产品 该方案通过单一API连接的方式实现支付处理的智能化升级 这一举措旨在帮助收单机构减少系统重建的成本并提高整体处理效率 Visa智能授权解决方案提供了高达99.999%的系统可用性以及全球平均96.3%的授权通过率 方案支持作为主支付...