2025年12月24日,人工智能领域迎来重大突破,阿里通义正式发布Qwen3-TTS家族的两款创新模型——音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash,为语音合成技术开启全新篇章。这两款模型不仅展现了卓越的技术实力,更在多个维度上超越了行业标杆,为用户带来前所未有的语音定制体验。
Qwen3-TTS-VD-Flash作为音色创造领域的革新之作,能够通过自然语言指令精准定制音色、情感与人设,实现“如何说”的精细化控制。在权威的InstructTTS-Eval评测中,该模型的表现力显著超越GPT-4o-mini-tts等同类模型,证明了其在语音生成领域的领先地位。这一突破意味着用户可以根据具体需求,打造出具有独特风格和情感表达的虚拟形象,为智能客服、虚拟主播等领域带来无限可能。
与此同时,音色克隆模型Qwen3-TTS-VC-Flash以惊人的速度和精度,实现了3秒级音色克隆,并可生成包括中文、英文、日语在内的10种语言语音。在多语种测试中,该模型的词错误率显著优于MiniMax、ElevenLabs等主流方案,展现了强大的跨语言处理能力。这一技术不仅能够帮助内容创作者快速生成多语言语音素材,还能为语言教学、跨文化交流等领域提供有力支持。
两款模型均具备高表现力与强文本鲁棒性,能够完美应对复杂文本场景的挑战。无论是情感丰富的故事讲述,还是逻辑严谨的学术报告,Qwen3-TTS家族都能以精准的语音合成效果,还原文本的深层含义。此外,相关API已全面开放,开发者可轻松集成这些先进技术,为各类应用场景注入智能语音新活力。
此次阿里通义Qwen3-TTS家族的发布,不仅标志着语音合成技术迈入新纪元,更为人工智能应用拓展了广阔空间。随着技术的不断迭代,我们有理由相信,这些创新模型将为未来智能交互带来更多惊喜,推动语音技术走向更高水平。
