Meta 公司于 6 月 19 日正式发布了其最新研发的生成式人工智能技术——Voicebox,这一创新突破为音频合成领域带来了全新可能。与 ChatGPT 和 Google Bard 等依赖自然语言处理和机器学习生成文本的模型不同,Voicebox 的核心功能在于生成任意音频内容。
Voicebox 的独特之处在于其强大的音频样本处理能力。只需用户提供 2 秒钟的音频样本,该技术即可精准匹配音频风格,实现高质量的文本转语音功能。更令人惊叹的是,Voicebox 能够在音频被外部噪音干扰时,智能重建被中断的语音片段,确保音频的完整性和流畅性。此外,该技术还支持多语言朗读,用户只需输入英文文本,即可将其转化为法语、德语、西班牙语、波兰语或葡萄牙语等多种语言,极大地拓展了音频应用场景。
Meta 公司表示,Voicebox 在虚拟助手和元宇宙非玩家角色的语音生成方面具有巨大潜力。在元宇宙这一数字世界中,人们可以聚集工作、娱乐和交流,而 Voicebox 生成的自然真实语音将极大提升用户体验。同时,该技术也为视力受损人士带来了福音,让他们能够通过听到朋友们的声音来朗读信息,有效改善沟通体验。
目前,Voicebox 仍处于研发阶段,尚未向公众开放使用。Meta 公司强调,他们充分认识到这项人工智能技术可能带来的潜在风险,特别是语音伪造等安全问题。为此,团队正在积极探索有效方法,以区分真实语音和由 Voicebox 生成的音频,确保技术的安全性和可靠性。随着技术的不断成熟,我们有理由相信 Voicebox 将为音频领域带来更多创新应用,开启音频交互的新纪元。