小红书智创音频技术团队近日重磅推出新一代对话合成模型 FireRedTTS-2,这一突破性进展为对话生成技术领域注入了新的活力。该模型致力于解决当前对话合成方案中存在的诸多痛点,包括灵活性不足、发音错误频发、说话人切换不稳定以及韵律自然度欠缺等问题。通过全面升级核心模块,特别是离散语音编码器和文本语音合成模型,FireRedTTS-2实现了合成效果的显著提升。在多项权威的主客观评测中,该模型均展现出行业领先水平,为多说话人的对话合成提供了更为卓越的解决方案。其详细的技术报告已公开发布于 arXiv 平台,用户可通过专用 Demo 和代码链接亲身体验其强大功能。
FireRedTTS-2 的一个突出亮点是其令人惊叹的自然度表现。模型能够精准捕捉重音、情绪波动和自然停顿等细节,使合成语音流畅自然,宛如真人发声。与传统的闭源对话生成模型相比,FireRedTTS-2 不仅能够生成高品质的播客音频,还创新性地支持音色克隆功能。用户只需提供每个发音人的一句语音样本,模型便能迅速学习并模仿其独特的音色和说话习惯,自动生成完整的多说话人对话。这一功能极大地增强了模型在开源对话生成领域的竞争力,为创作者提供了前所未有的灵活性。
在技术架构方面,FireRedTTS-2 采用了先进的低帧率离散语音编码器,显著提升了合成的速度与稳定性。同时,双 Transformer 的模型架构进一步优化了语音的自然度和连贯性。值得注意的是,该模型在训练过程中支持多语言环境(涵盖中文、英语、日语、韩语和法语),并具备少量数据即可实现音色定制的强大能力,使其能够快速适应各种应用场景。
FireRedTTS-2 的问世不仅为 AI 播客和对话合成应用提供了工业级的解决方案,更为行业内外的创新探索开辟了无限可能。未来,团队将持续投入资源优化该模型,计划增加支持的说话人数和语言种类,并探索更多可控音效插入功能,以满足市场日益增长的需求。代码链接:https://github.com/FireRedTeam/FireRedTTS2
划重点:🎤 FireRedTTS-2是小红书智创音频技术团队推出的新一代对话合成模型,旨在大幅提升合成效果和自然度。 🗣️ 模型具备强大的音色克隆能力,只需少量样本即可生成高度自然的多说话人对话。 🌐 支持多种语言和低帧率的离散语音编码器,显著提高合成速度与稳定性,完美适应多样化的应用场景。