美团开源LongCat-AudioDiT模型音色克隆性能刷新行业SOTA

2026-04-02 10:58:28 AI动态 1 次阅读

微新创想：音频生成技术正迎来从级连架构向端到端生成的范式转移。针对传统TTS系统因“梅尔频谱”中间表征带来的信息损耗与误差累积，美团LongCat团队于今日正式发布并开源了LongCat-AudioDiT（提供1B/3.5B两个版本）。该模型通过在波形潜空间直接建模，成功刷新了零样本语音克隆的性能上限。

核心架构：彻底告别梅尔频谱。LongCat-AudioDiT抛弃了传统的“预测声学特征+神经声码器”的多阶段流程，构建了由Wav-VAE（波形变分自编码器）与DiT（扩散Transformer）组成的极简架构。高效Wav-VAE：采用全卷积设计，将24kHz波形压缩2000倍至11.7Hz帧率。通过非参数捷径分支与多目标对抗训练，确保了重建波形在保持精确时频结构的同时，拥有极佳的自然听感。

语义增强DiT：模型创新性地将UMT5文本编码器的原始词嵌入与顶层隐藏状态融合，补齐了高层语义中丢失的音素细节，大幅提升了生成语音的可懂度。推理优化：精准解决音色漂移。为了进一步优化生成质量，团队引入了两项关键技术改进。

双重约束机制：识别并纠正了流匹配TTS长期存在的“训练-推理不匹配”问题。通过在推理中强制重置提示区域（Prompt）隐变量，彻底解决了说话人音色漂移及稳定性不足的痛点。自适应投影引导（APG）：取代传统的无分类器引导（CFG）。APG能够精准筛选引导信号中的有益分量，抑制导致音质劣化的信号，在不产生频谱“过饱和”的前提下，显著提升了语音的自然度。

性能表现：SOTA级的克隆精度。在Seed基准测试中，LongCat-AudioDiT展现了统治级的性能。相似度（SIM）：3.5B模型在Seed-ZH测试集达到0.818，在Seed-Hard难句测试集达到0.797，均超越了Seed-TTS、CosyVoice3.5及MiniMax-Speech等知名模型。准确率：在英文WER（1.50%）及中文难句CER（6.04%）等指标上均处于行业第一梯队。

值得关注的是，LongCat-AudioDiT仅通过ASR转写的预训练数据进行单阶段训练，便实现了优于多阶段训练模型的表现。目前，相关论文、代码及模型权重已在GitHub与HuggingFace全面开放。

2026年04月02日

12:03

美团开源LongCat-AudioDiT模型音色克隆性能刷新行业SOTA

最新快讯

2026年04月02日

字节Seedance 2.0视频模型面向企业开放公测

Standing Ovation获3000万欧元B轮融资

英伟达在MLPerf v6.0推理测试中全项夺冠

豆包跻身全球前三！日均Token使用量突破120万亿

买家电更省了！京东砸100亿元专项补贴：国补15%之外再减10%

租电模式仅19万起 2026款蔚来ET5、ET5T上市：特别版同步推出

苹果50周年！库克内部信曝光：从车库到卖出25亿台更大机会在后面

小米Wi-Fi 7路由器BE7000发布版本升级：新增专属网络、网关防火墙

被称 “摩托车圈雷军” 张雪：一直用2000元的华为手机屏坏了也懒得换

陈光标要送张雪价值1300万的劳斯莱斯！后者公开回应了

最低47.2元起！小米77款手机电池享8折换新

2026米粉节直接半价！小米云服务会员5折优惠来了：包年36元起还送3个月

美团开源LongCat-AudioDiT模型 音色克隆性能刷新行业SOTA

最新快讯

2026年04月02日

美团开源LongCat-AudioDiT模型音色克隆性能刷新行业SOTA