
微新创想:Hume AI近日开源发布了其最新语音生成模型TADA(Text-Acoustic Dual Alignment)这是一款基于大语言模型的文本转语音TTS系统采用创新的文本声学双对齐架构显著提升了生成效率可靠性及适用场景
据官方介绍TADA通过将文本token与声学表示实现1:1严格同步彻底解决了传统LLM-based TTS系统中常见的token级内容幻觉问题在超过1000个测试样本的评估中该模型实现了零内容幻觉的表现
在性能方面TADA的生成速度比同级别LLM TTS系统快5倍以上同时资源消耗极低每秒音频仅需2-3帧计算资源而传统方案通常需要12.5至75帧这使得模型能够在手机边缘设备等低功耗硬件上实现本地推理无需依赖云端服务器
TADA支持包括中文在内的多种语言多语言版本基于Llama3.23B参数规模并提供1B主要针对英语和3B多语言预训练模型模型采用2048token的上下文窗口能够一次性生成约700秒的连续音频远超传统方案在相同token限制下仅能支持约70秒的水平
另一项重要创新是同步转录功能模型在生成语音的同时直接输出对应文本转录无需额外运行独立的语音识别ASR流程从而实现零额外延迟的文字输出这一特性对于实时字幕语音交互和内容创作等应用具有显著价值
在人类主观评测中TADA的自然度和音色相似度排名位居第二超越了多个参数规模更大训练数据更多的系统展现出极具竞争力的语音质量
