Meta Voicebox通用语音生成AI突破性进展

2023-06-20 08:15:35 互联网 114 次阅读

继开源 LLaMA 模型后，Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段，为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同，这些模型擅长处理文本和图像生成任务，而语音生成领域长期面临规模化和任务泛化难题。6月17日，Meta 发布了名为 Voicebox 的通用语音生成系统，该系统可合成六种语言的语音，并实现噪声消除、内容编辑、风格转换等多样化功能，被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文：https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型，它能够像处理图像和文本一样生成多种风格的语音输出，既可从头创建全新语音，也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成，并具备强大的功能模块：

1. 噪声消除：通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑：可精准修改语音内容，替换错误词句
3. 风格转换：实现不同说话风格的切换
4. 样本多样化：生成更接近真实场景的语音数据

在技术实现上，Voicebox 基于流匹配（Flow Matching）方法改进扩散模型，这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示，Voicebox 的可懂度（词错率1.9% vs 5.9%）和音频相似度（0.681 vs 0.580）均优于英文语音生成模型 VALL-E，且处理速度提升20倍。在跨语言风格迁移任务中，Voicebox 将平均词错率从10.9%降至5.2%，音频相似度从0.335提高到0.481，在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据，导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型，能够学习文本与语音之间的高度非确定性映射关系，无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本，包括英语、法语、德语等六种语言及公共领域有声书资源。

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务：

1. 文本转语音合成：仅需2秒输入样本即可匹配音频风格，为失语人士提供发声能力，并支持虚拟角色声音定制
2. 跨语言风格迁移：实现不同语言间的自然语音转换，促进跨语言交流
3. 语音降噪与编辑：可无缝修复噪声污染片段，甚至替换错误词句
4. 多样化语音采样：生成接近真实场景的语音，为语音助手训练提供高质量数据