继开源 LLaMA 模型后,Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段,为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同,这些模型擅长处理文本和图像生成任务,而语音生成领域长期面临规模化和任务泛化难题。6月17日,Meta 发布了名为 Voicebox 的通用语音生成系统,该系统可合成六种语言的语音,并实现噪声消除、内容编辑、风格转换等多样化功能,被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta Voicebox通用语音生成AI突破性进展插图

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型,它能够像处理图像和文本一样生成多种风格的语音输出,既可从头创建全新语音,也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成,并具备强大的功能模块:

1. 噪声消除:通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑:可精准修改语音内容,替换错误词句
3. 风格转换:实现不同说话风格的切换
4. 样本多样化:生成更接近真实场景的语音数据

Meta Voicebox通用语音生成AI突破性进展插图1

在技术实现上,Voicebox 基于流匹配(Flow Matching)方法改进扩散模型,这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示,Voicebox 的可懂度(词错率1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)均优于英文语音生成模型 VALL-E,且处理速度提升20倍。在跨语言风格迁移任务中,Voicebox 将平均词错率从10.9%降至5.2%,音频相似度从0.335提高到0.481,在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据,导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型,能够学习文本与语音之间的高度非确定性映射关系,无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本,包括英语、法语、德语等六种语言及公共领域有声书资源。

Meta Voicebox通用语音生成AI突破性进展插图2

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务:

1. 文本转语音合成:仅需2秒输入样本即可匹配音频风格,为失语人士提供发声能力,并支持虚拟角色声音定制
2. 跨语言风格迁移:实现不同语言间的自然语音转换,促进跨语言交流
3. 语音降噪与编辑:可无缝修复噪声污染片段,甚至替换错误词句
4. 多样化语音采样:生成接近真实场景的语音,为语音助手训练提供高质量数据

Meta Voicebox通用语音生成AI突破性进展插图3

Meta 实验证明,基于 Voicebox 合成语音训练的语音识别模型表现接近真实语音训练水平,错误率仅高出1%,而传统文本转语音模型训练数据会导致45%-70%的错误率。

作为首个成功实现任务泛化的多功能模型,Voicebox 开创了语音生成式AI的新纪元。但 Meta 同时强调需警惕技术滥用风险,已开发语音分类器用于识别真实语音与合成音频。这一突破性进展将推动生成式AI在文本、图像和视频领域的应用升级,为人工智能发展注入新动能。

Meta Voicebox通用语音生成AI突破性进展插图4

最新快讯

2026年02月27日

09:22
2026年2月27日,武汉大学物理科学与技术学院王植平教授课题组在《科学》在线发表成果。研究团队提出‘原子尺度界面键合’技术,采用原子层沉积工艺,在钙钛矿太阳能电池空穴与电子传输层界面引入可调控的氧化铪(HfOx)中间层,实现双界面同步稳定。该技术显著提升热稳定性和机械附着力,抑制离子迁移。所制备p-i-n型电池获27.1%光电转换效率(第三方认证26.6...
09:22
2026年2月27日,发行商Epic宣布《装机模拟器2》正式登陆PS5与Xbox Series X|S平台。游戏定价24.99美元(约合171.2元人民币),与PC版一致。本作于2022年10月12日首发,涵盖超40个真实硬件品牌、1200余组件,支持职业生涯与自由模式,提供装配、超频、RGB定制及水冷系统搭建等拟真体验。此次主机移植为首次跨平台扩展,面向...
09:21
2026年2月27日,美格智能技术股份有限公司宣布启动香港IPO,计划发售3500万股新股,发行价上限为每股28.86港元,预计最高募资10亿港元。公司股票将于3月10日在香港交易所挂牌交易。此次上市旨在拓展国际市场、加强5G与AIoT技术研发及产能建设。发行由中金公司与中信证券担任联席保荐人。
09:21
2月26日18时21分,秘鲁利马大区卡涅特省奇尔卡以西36公里处发生5.0级地震,震源深度53公里。首都利马市区有明显震感。地震由秘鲁地球物理研究所国家地震中心测定。目前暂无人员伤亡和财产损失报告。
09:21
2026年2月27日,湖南省印发实施《进一步促进民间投资发展的若干措施》,从优化审批、拓展领域等5方面推出19条举措。措施明确:对农业水利、能源、交通等具备收益的省级审批项目,支持民间资本持股超10%;市场化程度高的项目持股比例不设上限。同时鼓励民企参与低空经济、北斗应用、重大科研设施共享及数字化升级,并推动与外资股权合作。旨在稳定预期、激发活力,促进民间...
09:21
2026年2月27日,中信证券发布研报指出,阿里、腾讯正积极推进网络物理层优化(NPO)架构落地与标准化。NPO技术因在信号完整性、功耗和可维护性间实现良好平衡,成为突破AI算力网络带宽瓶颈的关键方案。该技术已进入规模商用阶段,正驱动光通信产业链向硅光集成等高附加值环节升级。国内光模块龙头企业有望受益于算力底座迭代,迎来业绩与估值双升。中信证券维持通信行业...
09:21
微新创想2月27日消息,今日,谷歌正式发布新一代图像生成模型Nano Banana 2,主打更快、更便宜、更易用的高质量图像生成能力。据了解,Nano Banana 2将陆续接入Gemini、Google搜索、AI Studio、Flow、付费API以及Google Ads等平台,并逐步全面替代旧版模型。官方介绍称,该模型基于G...
09:21
微新创想:近日,贵阳一家食品企业推出的脆哨产品因独特的食用方法说明在网络引发热议。这款产品的瓶身标注着“大喊‘妈’,然后等着就行了”的诙谐提示,迅速成为社交平台上的热门话题。不少网友调侃称:“原来贵州脆哨要这样吃!中国人秒懂,喊完只听见房间回音。” 作为贵州传统风味小吃,脆哨以猪肉为原料,通过不同部位和加工方式衍生出多样品类。五花肉熬制的软哨口感酥糯,纯肥肉...
09:21
微新创想:全球 AI 市场在2月迎来关键转折点,中国开源模型首次在全球 Token 使用量上全面反超美国模型。这一变化由在线 AI 托管平台 OpenRouter 的最新数据所揭示,成为衡量全球 AI 开发活跃度的重要风向标。OpenRouter 聚合了谷歌、Anthropic 以及中国头部厂商的各类大模型,其数据显示,2月9日至15日期间,中国模型的周调用...
09:21
微新创想:OpenAI的全球扩张版图迎来了里程碑式的跨越。2026 年 2 月 27 日 据36 氪援引新浪财经消息 ChatGPT 开发商OpenAI正式宣布 将把 伦敦 打造为其在 美国本土以外规模最大的研究中心。这一决策不仅是OpenAI全球化人才战略的核心一环 更被视为对英国科技生态系统的一次重量级“信任投票”。 核心驱动:为什么选择伦敦?在Open...
09:21
微新创想:翻译软件的“机翻味”正被 AI 彻底洗去 2026 年 2 月 27 日 据IT之家报道 谷歌翻译宣布迎来史诗级升级 正式引入其最强 AI 模型 Gemini 此次更新的核心在于赋予了翻译工具“理解语境”的能力 让跨语言沟通不再仅仅是词汇的堆砌 而是文化的精准对齐 核心亮点 你的翻译自带“注释”与“方案” 得益于Gemini强大的多语言处理能力 谷...
09:21
微新创想:全球知名社交应用Bumble于周四正式发布了一系列由人工智能驱动的全新功能,旨在通过自动化反馈与个性化指导优化用户个人资料,从而提升平台匹配效率与社交成功率。此次更新的核心在于全球上线的“AI个人资料指导”工具(Profile Guidance),该工具能够对用户的个人简介及提示信息提供可操作的改进建议。同时,针对美国市场推出了“AI照片反馈”功能...