MOSS-TTSD开源：百万小时训练打造高表现力AI播客新标杆

2025-08-01 14:45:21 AI动态 177 次阅读

MOSS-TTSD（Text to Spoken Dialogue）语音对话生成模型近日正式开源，这一突破性成果由清华大学语音与语言实验室（Tencent AI Lab）携手上海创智学院、复旦大学及模思智能联合研发。该模型基于Qwen3-1.7B-base模型进行深度续训练，依托约100万小时单说话人语音数据和40万小时对话语音数据，采用先进的离散化语音序列建模方法，实现了中英双语的高表现力对话语音生成，为AI播客、有声小说及影视配音等长篇内容创作提供了强大支持。

MOSS-TTSD的核心创新在于其XY-Tokenizer技术，该技术采用双阶段多任务学习方式，通过八层RVQ码本将语音信号压缩至1kbps比特率，同时精准保留语义与声学信息，确保生成语音的自然度和流畅性。模型支持最长960秒的超长语音生成，有效避免了传统TTS模型因片段拼接导致的不自然过渡问题。此外，MOSS-TTSD还具备零样本音色克隆能力，用户只需上传完整对话片段或单人音频，即可实现双人语音克隆，并支持笑声等声音事件控制，极大丰富了语音的表现力。

在性能表现方面，MOSS-TTSD在中文客观指标上显著超越开源模型MoonCast，韵律和自然度表现尤为突出。虽然与字节跳动的豆包语音模型相比，在语气和节奏感上略有所逊，但凭借开源和免费商业使用的优势，MOSS-TTSD仍展现出巨大的应用潜力。模型权重、推理代码和API接口已通过GitHub（https://github.com/OpenMOSS/MOSS-TTSD）和HuggingFace（https://huggingface.co/fnlp/MOSS-TTSD-v0.5）全面开源，官方文档和在线体验Demo也已上线，为开发者提供了便捷的接入渠道。

MOSS-TTSD的发布为AI语音交互领域注入了新活力，尤其在长篇访谈、播客制作和影视配音等场景中，其稳定性和表现力将显著推动内容创作的智能化进程。未来，研发团队计划进一步优化模型，增强多说话人场景下的语音切换准确性和情感表达能力，为用户带来更加丰富的语音交互体验。更多详情请访问：https://github.com/OpenMOSS/MOSS-TTSD。