继开源 LLaMA 模型后,Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段,为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同,这些模型擅长处理文本和图像生成任务,而语音生成领域长期面临规模化和任务泛化难题。6月17日,Meta 发布了名为 Voicebox 的通用语音生成系统,该系统可合成六种语言的语音,并实现噪声消除、内容编辑、风格转换等多样化功能,被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta Voicebox通用语音生成AI突破性进展插图

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型,它能够像处理图像和文本一样生成多种风格的语音输出,既可从头创建全新语音,也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成,并具备强大的功能模块:

1. 噪声消除:通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑:可精准修改语音内容,替换错误词句
3. 风格转换:实现不同说话风格的切换
4. 样本多样化:生成更接近真实场景的语音数据

Meta Voicebox通用语音生成AI突破性进展插图1

在技术实现上,Voicebox 基于流匹配(Flow Matching)方法改进扩散模型,这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示,Voicebox 的可懂度(词错率1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)均优于英文语音生成模型 VALL-E,且处理速度提升20倍。在跨语言风格迁移任务中,Voicebox 将平均词错率从10.9%降至5.2%,音频相似度从0.335提高到0.481,在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据,导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型,能够学习文本与语音之间的高度非确定性映射关系,无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本,包括英语、法语、德语等六种语言及公共领域有声书资源。

Meta Voicebox通用语音生成AI突破性进展插图2

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务:

1. 文本转语音合成:仅需2秒输入样本即可匹配音频风格,为失语人士提供发声能力,并支持虚拟角色声音定制
2. 跨语言风格迁移:实现不同语言间的自然语音转换,促进跨语言交流
3. 语音降噪与编辑:可无缝修复噪声污染片段,甚至替换错误词句
4. 多样化语音采样:生成接近真实场景的语音,为语音助手训练提供高质量数据

Meta Voicebox通用语音生成AI突破性进展插图3

Meta 实验证明,基于 Voicebox 合成语音训练的语音识别模型表现接近真实语音训练水平,错误率仅高出1%,而传统文本转语音模型训练数据会导致45%-70%的错误率。

作为首个成功实现任务泛化的多功能模型,Voicebox 开创了语音生成式AI的新纪元。但 Meta 同时强调需警惕技术滥用风险,已开发语音分类器用于识别真实语音与合成音频。这一突破性进展将推动生成式AI在文本、图像和视频领域的应用升级,为人工智能发展注入新动能。

Meta Voicebox通用语音生成AI突破性进展插图4

最新快讯

2026年03月11日

01:59
微新创想:波音公司于3月11日宣布,其与CFM国际公司合作供应的发动机订单已满足2026年全年及2027年第一季度的交付需求。这一进展有助于确保737 MAX系列飞机的生产能够保持稳定节奏。波音并未公布具体的订单数量和合同细节,但表示供应链的协调工作正稳步推进。 随着全球航空业逐步复苏,窄体客机的需求正在持续增长。波音公司正加快步伐,努力将737 MAX的月...
01:59
微新创想:2026年3月11日,美国国家航空航天局(NASA)监察长办公室发布报告指出,SpaceX正在研发的“星舰”月球着陆器项目已比原定计划延迟两年。这一消息引发了广泛关注,因为该着陆器是NASA阿尔忒弥斯III任务的核心组成部分,旨在支持首次载人登月行动。 微新创想:根据报告内容,SpaceX的“星舰”着陆器不仅在时间上落后,而且其后续开发阶段仍存在进...
00:45
微新创想:2026年3月10日,谷歌正式向AI Ultra订阅用户以及Gemini Alpha企业客户上线了Workspace中的Gemini AI新功能。此次更新主要集中在Docs、Sheets和Slides三款核心办公应用上,为用户提供更智能、更高效的办公体验。 在Docs中,用户可以通过云端硬盘、Gmail等平台获取上下文信息,Gemini AI将根据...
00:09
微新创想:3月10日,全球航运巨头马士基公司宣布将于近期实施临时应急燃料附加费。该费用适用于其全球集装箱运输服务,旨在应对近期国际燃油价格剧烈波动及供应不确定性。 微新创想:附加费具体生效时间、费率标准及适用航线将另行通知客户。公司表示,此举属短期应对措施,将持续评估市场情况并适时调整。 微新创想:马士基公司作为全球领先的航运企业,一直致力于在复杂多变的市场...
00:09
微新创想:2026年3月10日,德国BioNTech公司宣布,联合创始人乌古尔·沙欣与厄兹莱姆·图雷西将于年底前离职,共同创立一家独立mRNA技术公司。这一决定标志着他们将开启新的职业篇章,专注于推动下一代mRNA技术的研发。 新公司将致力于探索mRNA领域的前沿创新,涵盖疫苗、疗法及个性化医疗等多个方向。BioNTech将向新公司转让相关的知识产权和技术平...
00:09
微新创想:2026年3月10日晚英伟达举办GeForce On玩家发布会正式推出DLSS 4.5技术 新版本DLSS 4.5技术包含Super Resolution动态多帧生成及六倍多帧生成等特性显著提升4K路径追踪游戏帧率最高可达35% 多款热门游戏将原生支持DLSS 4.5技术包括《007:初露锋芒》《INDUSTRIA 2》《战争雷霆》《燕云十六声》等...
00:09
微新创想:2026年3月10日,realme UI产品经理康达Leo宣布系统将于3月启动更新。此次更新将覆盖GT Neo6 SE及更高型号的机型,包括GT8 Pro、GT8、Neo8、GT7系列、Neo7系列、GT5 Pro、GT6等,共计13款设备。更新的具体内容尚未公布,但据官方透露,此次系统升级将带来多项优化与改进。 此次系统更新的宣布,正值realm...
00:09
微新创想:3月13日至15日,唯卓仕EVO系列镜头将在英国伯明翰The Photography & Video Show摄影展上首次亮相。此次展出标志着该系列镜头正式进入国际市场,为摄影爱好者带来全新的视觉体验。 EVO系列镜头以先进的真APO复消色差技术为核心卖点,能够有效减少色散现象,呈现出更加纯净、真实的色彩表现。这一技术在高对比度场景下尤为突...

2026年03月10日

23:26
微新创想:2026年3月10日,Perplexity公司正式推出Comet浏览器iOS版,仅限iPhone设备使用。该版本要求设备运行iOS 18.0或visionOS 2.0及以上系统,用户可在国区App Store下载安装。 Comet浏览器以人工智能技术为核心,重新定义了现代网络浏览体验。它不仅是一款工具,更是一个能够主动协助用户的智能助手。通过AI驱...
22:50
微新创想:3月10日,集海黄金在港交所发布公告称,其位于山东烟台的中嘉露天矿场已正式复工复产。该矿场此前因安全整改及季节性因素临时停产,经监管部门验收合格后恢复作业。 复产将提升公司黄金自产供给能力,支撑年度产量目标。公司表示,此次恢复生产是基于全面完成安全整改工作,并通过相关监管部门的严格审查。 目前矿区人员、设备及运输系统均已正常运转,生产节奏正逐步回升...
22:50
微新创想:任天堂在3月10日马力欧日宣布,横版动作游戏《耀西与不可思议的图鉴》将于5月21日正式发售。该游戏将exclusively登陆Switch 2平台,为玩家带来全新的冒险体验。 玩家将扮演耀西,进入一个充满奇幻色彩的异世界,这个世界由会说话的《E先生百科全书》所构建。在游戏中,耀西可以通过踩踏、吞食等经典能力,探索这个神秘世界并发现各种奇特生物。 这...
22:50
微新创想:3月10日,杭州铜师傅文创(集团)股份有限公司正式通过港交所上市聆讯并更新聆讯后资料集。这一重要进展标志着公司在资本市场的布局迈出了关键一步。公司总部设立于浙江杭州,专注于高端铜艺文创产品的设计、研发与销售,凭借精湛的工艺和独特的文化价值,赢得了市场的广泛认可。 铜师傅作为国内知名的非物质文化遗产铜艺产业化代表企业,近年来不断加大在创新领域的投入。...