
阿里云通义千问重磅推出新一代语音合成大模型Qwen3-TTS,现已正式通过Qwen API面向全球开发者免费开放调用。该模型凭借其卓越性能,在语音合成领域树立了全新标杆,为开发者提供前所未有的声音创作体验。

Qwen3-TTS内置49种多角色音色库,涵盖丰富多样的性别、年龄、地域及角色设定,包括”撒娇搞怪茉兔”、”严厉老师墨讲师”、”智慧老者沧明子”等特色音色,用户可一键切换满足不同场景需求。模型全面支持10种主流语言及10种中国方言,无论是播客制作、有声读物录制,还是游戏NPC配音、智能客服语音交互,均可实现秒级换声,无需任何额外训练成本。
在跨语种性能方面,Qwen3-TTS在MiniMax TTS multilingual test set测试中表现突出,平均词错误率(WER)超越MiniMax与ElevenLabs等业界领先模型,客观指标显示其合成准确率提升约12%。模型内置的10种主流语言涵盖中文、英语、德语、意大利语、法语等,而10种方言则完整保留了普通话、粤语、四川话等的地道口音与自然语调,确保声音表达的精准性与地域特色。

韵律与语速方面,Qwen3-TTS采用先进的文本驱动技术,能够根据文本内容自动调节语速快慢及自然停顿,并通过音节级重音与语调预测模型,实现MOS评分高达4.6的真人级自然度,与专业播音员的4.8分水平仅一步之遥。此外,模型支持实时流式处理,首包延迟极低,能够满足各类实时语音应用场景需求。
此次Qwen3-TTS的全球免费开放,不仅体现了阿里云在人工智能领域的持续创新投入,更为全球开发者提供了强大的声音解决方案,将推动语音技术应用向更高维度发展。开发者可立即通过Qwen API接入体验,开启智能语音创作的全新篇章。
