MOSS-TTSD(Text to Spoken Dialogue)语音对话生成模型近日正式开源,这一突破性成果由清华大学语音与语言实验室(Tencent AI Lab)携手上海创智学院、复旦大学及模思智能联合研发。该模型基于Qwen3-1.7B-base模型进行深度续训练,依托约100万小时单说话人语音数据和40万小时对话语音数据,采用先进的离散化语音序列建模方法,实现了中英双语的高表现力对话语音生成,为AI播客、有声小说及影视配音等长篇内容创作提供了强大支持。
MOSS-TTSD的核心创新在于其XY-Tokenizer技术,该技术采用双阶段多任务学习方式,通过八层RVQ码本将语音信号压缩至1kbps比特率,同时精准保留语义与声学信息,确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成,有效避免了传统TTS模型因片段拼接导致的不自然过渡问题。此外,MOSS-TTSD还具备零样本音色克隆能力,用户只需上传完整对话片段或单人音频,即可实现双人语音克隆,并支持笑声等声音事件控制,极大丰富了语音的表现力。
在性能表现方面,MOSS-TTSD在中文客观指标上显著超越开源模型MoonCast,韵律和自然度表现尤为突出。虽然与字节跳动的豆包语音模型相比,在语气和节奏感上略有所逊,但凭借开源和免费商业使用的优势,MOSS-TTSD仍展现出巨大的应用潜力。模型权重、推理代码和API接口已通过GitHub(https://github.com/OpenMOSS/MOSS-TTSD)和HuggingFace(https://huggingface.co/fnlp/MOSS-TTSD-v0.5)全面开源,官方文档和在线体验Demo也已上线,为开发者提供了便捷的接入渠道。
MOSS-TTSD的发布为AI语音交互领域注入了新活力,尤其在长篇访谈、播客制作和影视配音等场景中,其稳定性和表现力将显著推动内容创作的智能化进程。未来,研发团队计划进一步优化模型,增强多说话人场景下的语音切换准确性和情感表达能力,为用户带来更加丰富的语音交互体验。更多详情请访问:https://github.com/OpenMOSS/MOSS-TTSD。