微软GPT-realtime发布语音更逼真多模态输入体验升级

2025-09-05 09:59:56 AI动态 49 次阅读

微软正式宣布其革新的语音转语音（S2S）模型GPT-realtime已在Azure AI Foundry平台全面上线。这款全新模型整合了微软在语音技术领域的多项突破性成果，以自然语言处理、卓越音频质量及精准指令跟随为核心优势，为开发者带来前所未有的语音交互体验。通过全新的Real-time API，开发者即可轻松访问GPT-realtime，享受更自然、更具表现力的语音输出和超高保真度的音频效果。

此次发布亮点纷呈，微软特别推出了两款全新语音选项——Marin和Cedar。这两款语音合成方案采用先进技术，能够生成高度逼真且清晰自然的语音效果，为用户带来沉浸式的听觉体验。微软在官方公告中详细阐述了GPT-realtime的几项关键升级：首先，功能调用能力显著增强，能够更灵活地处理复杂语音任务；其次，指令执行准确率大幅提升，确保语音交互的流畅性；此外，模型还创新性地支持图像输入，用户可直接在语音对话中插入图像进行讨论，实现突破性的多模态交互，无需依赖传统视频流。

在商业层面，微软对定价模型进行了优化调整。正式版GPT-realtime的价格较之前的gpt-4o-realtime预览版本降低了20%，采用按百万代币（token）使用量计费的模式，进一步降低了开发者的使用门槛。此次发布彰显了微软在实时AI领域的坚定步伐，致力于为广大开发者和企业用户提供更强大的技术支持。GPT-realtime通过融合富有表现力的语音合成、高品质音频及多模态输入能力，将为包括高级客户支持系统、创新辅助功能工具在内的广泛应用场景提供强大的技术支撑，推动实时AI应用迈向新高度。

2026年03月05日

19:34

微软GPT-realtime发布语音更逼真多模态输入体验升级

最新快讯

2026年03月05日

高途教育2025财年营收增长35%净亏损大幅收窄

Akash发布首款金刚石冷却AI服务器助力高效散热与性能提升

重庆江津福朋喜来登酒店盛大开业提升高端商务休闲接待能力

魔法原子创始人吴长征离职创业技术团队稳定运营

《Weyrdlets》3月17日转为付费游戏并推出2.0版本更新

广汽丰田新能源车型本土化提速铂智7搭载鸿蒙座舱引领智能变革

中国AI模型周调用量超美国Token成新型电力指标

*ST松发下属公司签订4艘VLCC建造合同金额超6亿美元助力高端制造转型

《杀戮尖塔2》3月6日凌晨2点Steam抢先体验开启

广和通MWC2026首发PC1级双平台模组支持3Tx8RxL4S技术提升性能与覆盖

B站2025年实现全年盈利日活达1.13亿创里程碑

江苏永联村实现全国首个5G-A全域覆盖助力乡村数智化转型

微软GPT-realtime发布 语音更逼真多模态输入体验升级

最新快讯

2026年03月05日

微软GPT-realtime发布语音更逼真多模态输入体验升级