继开源 LLaMA 模型后,Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段,为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同,这些模型擅长处理文本和图像生成任务,而语音生成领域长期面临规模化和任务泛化难题。6月17日,Meta 发布了名为 Voicebox 的通用语音生成系统,该系统可合成六种语言的语音,并实现噪声消除、内容编辑、风格转换等多样化功能,被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta Voicebox通用语音生成AI突破性进展插图

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型,它能够像处理图像和文本一样生成多种风格的语音输出,既可从头创建全新语音,也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成,并具备强大的功能模块:

1. 噪声消除:通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑:可精准修改语音内容,替换错误词句
3. 风格转换:实现不同说话风格的切换
4. 样本多样化:生成更接近真实场景的语音数据

Meta Voicebox通用语音生成AI突破性进展插图1

在技术实现上,Voicebox 基于流匹配(Flow Matching)方法改进扩散模型,这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示,Voicebox 的可懂度(词错率1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)均优于英文语音生成模型 VALL-E,且处理速度提升20倍。在跨语言风格迁移任务中,Voicebox 将平均词错率从10.9%降至5.2%,音频相似度从0.335提高到0.481,在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据,导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型,能够学习文本与语音之间的高度非确定性映射关系,无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本,包括英语、法语、德语等六种语言及公共领域有声书资源。

Meta Voicebox通用语音生成AI突破性进展插图2

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务:

1. 文本转语音合成:仅需2秒输入样本即可匹配音频风格,为失语人士提供发声能力,并支持虚拟角色声音定制
2. 跨语言风格迁移:实现不同语言间的自然语音转换,促进跨语言交流
3. 语音降噪与编辑:可无缝修复噪声污染片段,甚至替换错误词句
4. 多样化语音采样:生成接近真实场景的语音,为语音助手训练提供高质量数据

Meta Voicebox通用语音生成AI突破性进展插图3

Meta 实验证明,基于 Voicebox 合成语音训练的语音识别模型表现接近真实语音训练水平,错误率仅高出1%,而传统文本转语音模型训练数据会导致45%-70%的错误率。

作为首个成功实现任务泛化的多功能模型,Voicebox 开创了语音生成式AI的新纪元。但 Meta 同时强调需警惕技术滥用风险,已开发语音分类器用于识别真实语音与合成音频。这一突破性进展将推动生成式AI在文本、图像和视频领域的应用升级,为人工智能发展注入新动能。

Meta Voicebox通用语音生成AI突破性进展插图4

最新快讯

2025年08月07日

16:35
微新创想8月7日重磅发布,小米商城全新上架米家高速吹风机,为用户提供马卡龙粉、奶白、蓝、绿四款时尚配色选择,官方定价249元,首发特惠价219元,更有国家补贴加持,最终到手价低至186.15元,性价比极高。 这款吹风机搭载行业领先的110000转/分钟高速无刷电机,配合62米/秒的强劲高压气流,实现高效速干功能。根据小米实验室权威数据,干练短发仅需1分钟...
16:35
微新创想8月7日讯 盒马鲜生十周年开放日盛大举行,这场以"十年·新程"为主题的盛会不仅回顾了品牌发展历程,更向外界释放了强劲的增长信号。盒马CEO百何在活动现场发表重要演讲,她明确表示盒马将继续坚持稳健增长战略,今年计划新开100家门店,覆盖范围将拓展至50个新增城市,进一步巩固其在全国市场的领先地位。 百何特别提到,盒马近期实现了与淘宝88VIP会员体系...
16:35
外卖补贴大战从白热化竞争进入常态化阶段后,虽然对餐饮商家的直接影响有所缓和,但美团计划年底开设1万家卫星店、三年内建成1200家浣熊食堂,以及拼好饭与1万个品牌深化合作等举措,表明平台围绕外卖的竞争仍将持续。这种竞争不仅通过补贴形式影响商家,更体现在外卖供给模式的不断创新和市场份额的持续扩张上。对餐饮商家而言,外卖自诞生以来主要作为线上销售渠道,能够带来新客...
16:35
8月7日,我们迎来了二十四节气中的立秋,标志着炎热夏季的逐渐退场,凉爽秋季的正式登场。立秋时节,气候由热转凉,人体生理也随之发生微妙变化,因此饮食调理显得尤为重要。民间流传着"立秋四不吃"的说法,提醒我们在这个季节调整饮食结构,以适应身体的转变。 立秋进补"四不吃"包括:不吃生冷海鲜。夏季残留的寒气容易与海鲜中的寒性相叠加,损伤脾胃阳气;不吃寒凉瓜果。西瓜、...
16:35
微新创想8月7日讯 从德国权威科技网站iPhone Ticker最新披露的消息来看,苹果公司已确定将在2025年9月9日周二举行备受瞩目的iPhone 17系列发布会。这一时间节点恰好落在今年劳动节后的第二周,与此前多家市场分析机构预测的时间窗口高度吻合。 据悉,苹果秋季新品发布会历来遵循着一套严谨的发布规律。公司通常选择在劳动节假期结束后的第二周周二举行发...
16:35
微软研究院正式发布了一款名为Agent Lightning的创新强化学习训练框架,该框架致力于突破当前AI代理系统在训练过程中普遍存在的通用性不足与灵活性欠缺的瓶颈。通过突破性的解耦设计理念,Agent Lightning能够为不同架构的AI代理提供统一的强化学习训练方案。尽管当前的大语言模型在代码生成、内容创作等领域展现出卓越能力,但在处理复杂多轮对话、专...
16:35
中国在开源人工智能领域的迅猛发展已引发美国的高度警惕,为此美国本周一正式宣布启动一项名为"ATOM计划"的新战略,旨在重新夺回开源AI领域的全球主导权。这一战略的出台,源于"千问效应"所引发的美国科技界的警觉——中国开源AI模型的快速迭代已成为美国科技界的紧迫威胁。根据Hugging Face的最新数据,阿里巴巴推出的"通义千问"(Qwen)系列模型凭借其卓...
16:35
今日下午15时45分,中国台湾地区附近海域突发5.2级地震,震源深度尚待进一步确认。据初步监测,此次地震波及范围有限,预计对周边区域仅造成轻微影响,但相关部门已启动应急监测机制,持续跟进震后动态。此次地震虽未引发次生灾害,但专家提醒沿海居民仍需保持警惕,注意防范可能出现的余震。地震发生后,中国地震局已组织专家团队进行会商研判,将及时发布权威信息,确保公众安全...
16:35
2025年8月7日,伦敦金属交易所(LME)最新公布的库存数据揭示了金属市场的供需变化趋势。数据显示,锌库存出现显著下降,减少4275吨,显示出较强的市场需求;镍库存也相应减少240吨,表明市场对镍的需求保持稳定;铜库存则减少125吨,进一步印证了铜市供需的紧平衡状态。与此同时,铅库存呈现反向变动,增加800吨,反映出铅市供应相对过剩;铝库存同样上升1575...
16:35
2025年8月7日,保险行业迎来重大治理变革多家知名保险公司如中国人民财产保险、中国太平洋保险等纷纷宣布取消监事会设置,转而由董事会下设的审计委员会全面承接原监事会的监督职能这一系列调整正是新《公司法》实施后公司治理结构优化的具体体现标志着保险企业正积极适应新规要求,推动治理体系现代化转型 此次改革的核心在于将监督职能集中至董事会层面,通过设立专业的审计委员...
16:35
2025年8月,景顺长城基金经理刘彦春的选股策略再次引发市场热议。这位以长期主义著称的基金经理,近期因重仓蓝筹白马股的表现不佳而面临诸多质疑。其管理的景顺长城新兴成长A基金,截至2025年6月底的净值表现持续跑输市场平均水平,份额更是跌至2020年底以来的最低点。 刘彦春始终坚持长期投资理念,重点布局白酒、消费、家电等防御性板块。然而,在近两年市场风格快速切...
16:35
2025年8月7日,招商银行在深圳隆重举办2025财富合作伙伴论坛,行长王良发表重要讲话,提出了五项具有深远意义的倡议,为财富管理行业的高质量发展指明了方向。 王良首先强调,作为金融行业的领军者,招商银行将积极投身金融强国建设,通过优化金融服务,为实体经济发展注入强劲动力。这一倡议体现了招商银行服务国家战略、助力经济腾飞的坚定决心。 其次,王良提出要成为长...