
微新创想:音频生成技术正迎来从级连架构向端到端生成的范式转移。针对传统TTS系统因“梅尔频谱”中间表征带来的信息损耗与误差累积,美团LongCat团队于今日正式发布并开源了LongCat-AudioDiT(提供1B/3.5B两个版本)。该模型通过在波形潜空间直接建模,成功刷新了零样本语音克隆的性能上限。
核心架构:彻底告别梅尔频谱。LongCat-AudioDiT抛弃了传统的“预测声学特征+神经声码器”的多阶段流程,构建了由Wav-VAE(波形变分自编码器)与DiT(扩散Transformer)组成的极简架构。高效Wav-VAE:采用全卷积设计,将24kHz波形压缩2000倍至11.7Hz帧率。通过非参数捷径分支与多目标对抗训练,确保了重建波形在保持精确时频结构的同时,拥有极佳的自然听感。
语义增强DiT:模型创新性地将UMT5文本编码器的原始词嵌入与顶层隐藏状态融合,补齐了高层语义中丢失的音素细节,大幅提升了生成语音的可懂度。推理优化:精准解决音色漂移。为了进一步优化生成质量,团队引入了两项关键技术改进。

双重约束机制:识别并纠正了流匹配TTS长期存在的“训练-推理不匹配”问题。通过在推理中强制重置提示区域(Prompt)隐变量,彻底解决了说话人音色漂移及稳定性不足的痛点。自适应投影引导(APG):取代传统的无分类器引导(CFG)。APG能够精准筛选引导信号中的有益分量,抑制导致音质劣化的信号,在不产生频谱“过饱和”的前提下,显著提升了语音的自然度。
性能表现:SOTA级的克隆精度。在Seed基准测试中,LongCat-AudioDiT展现了统治级的性能。相似度(SIM):3.5B模型在Seed-ZH测试集达到0.818,在Seed-Hard难句测试集达到0.797,均超越了Seed-TTS、CosyVoice3.5及MiniMax-Speech等知名模型。准确率:在英文WER(1.50%)及中文难句CER(6.04%)等指标上均处于行业第一梯队。
值得关注的是,LongCat-AudioDiT仅通过ASR转写的预训练数据进行单阶段训练,便实现了优于多阶段训练模型的表现。目前,相关论文、代码及模型权重已在GitHub与HuggingFace全面开放。
