OpenAI发布三款实时语音模型实现GPT-5级推理能力突破

2026-05-08 11:54:41 AI动态 4 次阅读

微新创想：人工智能巨头 OpenAI 再次刷新了语音交互的技术边界正式推出了三款全新的实时语音模型：GPT-Realtime-2、GPT-Realtime-Translate 以及 GPT-Realtime-Whisper 这三款模型目前已集成至 Realtime API 供开发者使用旨在从底层技术上攻克语音交互中长期存在的延迟高无法自然打断以及多语言支持难等痛点

作为此次发布的重头戏 GPT-Realtime-2 被定义为目前最智能的 AI 语音模型也是首个具备 GPT-5 级推理能力的语音工具与传统的语音助手不同它在保持对话极度自然流畅的同时能够实时进行复杂的逻辑推理灵活调用外部工具并能精准识别且处理用户的打断或纠正这一突破意味着未来的语音助手将不再只是简单的指令执行者而是能处理多步骤复杂任务的实时协作伙伴

在定价策略上 GPT-Realtime-2 的音频输入费用设定为每百万 Token 32 美元（约合人民币 218 元）输出费用为 64 美元（约合人民币 436 元）而缓存输入的成本显著降低仅需 0.4 美元除了核心推理模型另外两款功能性模型也各具特色 GPT-Realtime-Translate 展现了强大的翻译性能支持 70 种输入语言与 13 种输出语言的即时转换其翻译速度几乎与说话者同步能够胜任跨国会议等高要求的实时沟通场景

而 GPT-Realtime-Whisper 则专注于追求极致的流式转录实现了“音随人动”的低延迟体验极大缩短了会议记录和实时字幕的等待时间这两款模型的计费方式更为灵活分别按分钟计费价格为每分钟 0.034 美元和 0.017 美元业内分析认为 OpenAI 这一系列动作标志着 AI 语音交互正从“简单响应”向“深度实时理解”跨越进一步巩固了其在智能时代的技术领先地位

2026年05月08日

13:22

OpenAI发布三款实时语音模型实现GPT-5级推理能力突破

最新快讯

2026年05月08日

华硕ROG Strix XG129C副屏发布 12.3英寸24:9触控屏亮点解析

印尼自由港铜矿重启延期一年影响全球铜供应预期

嫦娥六号月壤研究揭示碳质小行星撞击时间晚于预期

新紫光发布紫弦三维近存架构突破AI算力瓶颈强化国产高性能计算自主能力

OTA锁电乱象升级 8家车企被约谈3家立案调查

AMD发布DGF 1.2 SDK搭载SuperCompression新技术降游戏资源包体积提升存储效率

湖南浏阳烟花厂爆炸事故致37死1失联原因调查进行中

绿控传动5月13日上会冲刺创业板发行近9682万股募资15.8亿元

ROG20周年庆典发布会6月1日台北三创生活园区开启纪念旗舰系列亮相

Anthropic完成500亿美元融资估值飙升至9000亿美元引领AI新发展

SK EcoPrime获高瓴创投1.6亿元战略投资助力绿色能源发展

2026春季跨境电商供需对接活动成都举办推动贸产融合连接全球市场