Meta Voicebox AI技术实现多语言语音合成

2023-06-20 08:15:49 互联网 184 次阅读

Meta 公司于 6 月 19 日正式发布了其最新研发的生成式人工智能技术——Voicebox，这一创新突破为音频合成领域带来了全新可能。与 ChatGPT 和 Google Bard 等依赖自然语言处理和机器学习生成文本的模型不同，Voicebox 的核心功能在于生成任意音频内容。

Voicebox 的独特之处在于其强大的音频样本处理能力。只需用户提供 2 秒钟的音频样本，该技术即可精准匹配音频风格，实现高质量的文本转语音功能。更令人惊叹的是，Voicebox 能够在音频被外部噪音干扰时，智能重建被中断的语音片段，确保音频的完整性和流畅性。此外，该技术还支持多语言朗读，用户只需输入英文文本，即可将其转化为法语、德语、西班牙语、波兰语或葡萄牙语等多种语言，极大地拓展了音频应用场景。

Meta 公司表示，Voicebox 在虚拟助手和元宇宙非玩家角色的语音生成方面具有巨大潜力。在元宇宙这一数字世界中，人们可以聚集工作、娱乐和交流，而 Voicebox 生成的自然真实语音将极大提升用户体验。同时，该技术也为视力受损人士带来了福音，让他们能够通过听到朋友们的声音来朗读信息，有效改善沟通体验。

目前，Voicebox 仍处于研发阶段，尚未向公众开放使用。Meta 公司强调，他们充分认识到这项人工智能技术可能带来的潜在风险，特别是语音伪造等安全问题。为此，团队正在积极探索有效方法，以区分真实语音和由 Voicebox 生成的音频，确保技术的安全性和可靠性。随着技术的不断成熟，我们有理由相信 Voicebox 将为音频领域带来更多创新应用，开启音频交互的新纪元。