微软正式宣布其革新的语音转语音(S2S)模型GPT-realtime已在Azure AI Foundry平台全面上线。这款全新模型整合了微软在语音技术领域的多项突破性成果,以自然语言处理、卓越音频质量及精准指令跟随为核心优势,为开发者带来前所未有的语音交互体验。通过全新的Real-time API,开发者即可轻松访问GPT-realtime,享受更自然、更具表现力的语音输出和超高保真度的音频效果。
此次发布亮点纷呈,微软特别推出了两款全新语音选项——Marin和Cedar。这两款语音合成方案采用先进技术,能够生成高度逼真且清晰自然的语音效果,为用户带来沉浸式的听觉体验。微软在官方公告中详细阐述了GPT-realtime的几项关键升级:首先,功能调用能力显著增强,能够更灵活地处理复杂语音任务;其次,指令执行准确率大幅提升,确保语音交互的流畅性;此外,模型还创新性地支持图像输入,用户可直接在语音对话中插入图像进行讨论,实现突破性的多模态交互,无需依赖传统视频流。
在商业层面,微软对定价模型进行了优化调整。正式版GPT-realtime的价格较之前的gpt-4o-realtime预览版本降低了20%,采用按百万代币(token)使用量计费的模式,进一步降低了开发者的使用门槛。此次发布彰显了微软在实时AI领域的坚定步伐,致力于为广大开发者和企业用户提供更强大的技术支持。GPT-realtime通过融合富有表现力的语音合成、高品质音频及多模态输入能力,将为包括高级客户支持系统、创新辅助功能工具在内的广泛应用场景提供强大的技术支撑,推动实时AI应用迈向新高度。