小红书FireRedTTS-2发布 AI播客合成新突破

2025-09-15 10:59:01 AI动态 17 次阅读

小红书智创音频技术团队近日重磅推出新一代对话合成模型 FireRedTTS-2，这一突破性进展为对话生成技术领域注入了新的活力。该模型致力于解决当前对话合成方案中存在的诸多痛点，包括灵活性不足、发音错误频发、说话人切换不稳定以及韵律自然度欠缺等问题。通过全面升级核心模块，特别是离散语音编码器和文本语音合成模型，FireRedTTS-2实现了合成效果的显著提升。在多项权威的主客观评测中，该模型均展现出行业领先水平，为多说话人的对话合成提供了更为卓越的解决方案。其详细的技术报告已公开发布于 arXiv 平台，用户可通过专用 Demo 和代码链接亲身体验其强大功能。

FireRedTTS-2 的一个突出亮点是其令人惊叹的自然度表现。模型能够精准捕捉重音、情绪波动和自然停顿等细节，使合成语音流畅自然，宛如真人发声。与传统的闭源对话生成模型相比，FireRedTTS-2 不仅能够生成高品质的播客音频，还创新性地支持音色克隆功能。用户只需提供每个发音人的一句语音样本，模型便能迅速学习并模仿其独特的音色和说话习惯，自动生成完整的多说话人对话。这一功能极大地增强了模型在开源对话生成领域的竞争力，为创作者提供了前所未有的灵活性。

在技术架构方面，FireRedTTS-2 采用了先进的低帧率离散语音编码器，显著提升了合成的速度与稳定性。同时，双 Transformer 的模型架构进一步优化了语音的自然度和连贯性。值得注意的是，该模型在训练过程中支持多语言环境（涵盖中文、英语、日语、韩语和法语），并具备少量数据即可实现音色定制的强大能力，使其能够快速适应各种应用场景。

FireRedTTS-2 的问世不仅为 AI 播客和对话合成应用提供了工业级的解决方案，更为行业内外的创新探索开辟了无限可能。未来，团队将持续投入资源优化该模型，计划增加支持的说话人数和语言种类，并探索更多可控音效插入功能，以满足市场日益增长的需求。代码链接:https://github.com/FireRedTeam/FireRedTTS2

划重点:🎤 FireRedTTS-2是小红书智创音频技术团队推出的新一代对话合成模型，旨在大幅提升合成效果和自然度。 🗣️ 模型具备强大的音色克隆能力，只需少量样本即可生成高度自然的多说话人对话。 🌐 支持多种语言和低帧率的离散语音编码器，显著提高合成速度与稳定性，完美适应多样化的应用场景。