2026年1月22日,人工智能领域迎来重大突破,Qwen正式宣布开源其革命性的Qwen3-TTS多码本全系列语音生成模型。这一创新系列包含两款核心模型——1.7B参数版本与0.6B参数版本,分别针对极致性能与均衡效率场景进行优化,为用户提供了更加灵活高效的语音合成选择。
该模型具备三大核心功能:音色克隆、创意语音生成以及多语言拟人化语音合成。其支持范围广泛,覆盖中、英、日、韩等10种主流语言及多种方言,能够满足不同场景下的语言需求。通过先进的语音合成技术,用户可以轻松实现个性化语音定制,无论是模仿特定人物还是创造全新音色,都能精准还原。
在技术架构上,Qwen3-TTS-Tokenizer-12Hz编码器与Dual-Track双轨架构的完美结合,实现了惊人的性能表现。模型端到端延迟低至97毫秒,首包音频响应仅需一个字符输入,极大地提升了交互效率。这一突破性成果在音色控制、跨语种克隆等关键任务中均达到当前行业最优水平(SOTA)。
Qwen3-TTS多码本系列模型现已全面开源,用户可通过GitHub、HuggingFace等平台免费获取。这一开放举措将推动语音合成技术的普及与发展,为各行各业带来更多创新可能。无论是开发者还是研究人员,都能从此技术中获益,共同探索语音交互的无限未来。
