OpenAI推出三款超强语音AI模型实现高仿真实时交互翻译与转写

2026-05-09 10:14:14 互联网 3 次阅读

微新创想：OpenAI近日宣布对其实时API接口进行了重大升级并一次性推出三款全新高阶语音智能模型。此次更新全面强化了AI在实时听觉、口语交互、翻译与转录方面的能力，同时大幅降低了企业开发智能语音应用的技术门槛。

本次更新的核心产品包括GPT-Realtime-2、实时翻译模型以及实时转写模型。其中GPT-Realtime-2搭载了GPT-5级别的推理能力，显著提升了人声仿真度。相比前代产品，它能够更精准地理解并处理复杂的人类指令，实现更自然、更智能的连续对话交互。

在翻译方面，GPT-Realtime-Translate支持超过70种语言的识别以及13种语言的语音输出。该模型能够同步人声语速完成实时翻译，确保跨语言沟通流畅无卡顿，满足多语种交流需求。

配套上线的Whisper实时转录模型，可在人机互动过程中同步完成语音转文字的功能。这一特性特别适用于会议记录、实时笔录等高频办公场景，极大提升了工作效率与信息获取的便捷性。

OpenAI表示，本次升级将AI音频交互从基础问答提升为综合性智能语音操作系统。该系统集聆听、思考、翻译、转写与实时响应于一体，不仅增强了实用性，还为企业和个人用户提供了更全面的语音交互解决方案。

2026年05月09日

11:34