继开源 LLaMA 模型后,Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段,为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同,这些模型擅长处理文本和图像生成任务,而语音生成领域长期面临规模化和任务泛化难题。6月17日,Meta 发布了名为 Voicebox 的通用语音生成系统,该系统可合成六种语言的语音,并实现噪声消除、内容编辑、风格转换等多样化功能,被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta Voicebox通用语音生成AI突破性进展插图

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型,它能够像处理图像和文本一样生成多种风格的语音输出,既可从头创建全新语音,也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成,并具备强大的功能模块:

1. 噪声消除:通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑:可精准修改语音内容,替换错误词句
3. 风格转换:实现不同说话风格的切换
4. 样本多样化:生成更接近真实场景的语音数据

Meta Voicebox通用语音生成AI突破性进展插图1

在技术实现上,Voicebox 基于流匹配(Flow Matching)方法改进扩散模型,这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示,Voicebox 的可懂度(词错率1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)均优于英文语音生成模型 VALL-E,且处理速度提升20倍。在跨语言风格迁移任务中,Voicebox 将平均词错率从10.9%降至5.2%,音频相似度从0.335提高到0.481,在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据,导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型,能够学习文本与语音之间的高度非确定性映射关系,无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本,包括英语、法语、德语等六种语言及公共领域有声书资源。

Meta Voicebox通用语音生成AI突破性进展插图2

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务:

1. 文本转语音合成:仅需2秒输入样本即可匹配音频风格,为失语人士提供发声能力,并支持虚拟角色声音定制
2. 跨语言风格迁移:实现不同语言间的自然语音转换,促进跨语言交流
3. 语音降噪与编辑:可无缝修复噪声污染片段,甚至替换错误词句
4. 多样化语音采样:生成接近真实场景的语音,为语音助手训练提供高质量数据

Meta Voicebox通用语音生成AI突破性进展插图3

Meta 实验证明,基于 Voicebox 合成语音训练的语音识别模型表现接近真实语音训练水平,错误率仅高出1%,而传统文本转语音模型训练数据会导致45%-70%的错误率。

作为首个成功实现任务泛化的多功能模型,Voicebox 开创了语音生成式AI的新纪元。但 Meta 同时强调需警惕技术滥用风险,已开发语音分类器用于识别真实语音与合成音频。这一突破性进展将推动生成式AI在文本、图像和视频领域的应用升级,为人工智能发展注入新动能。

Meta Voicebox通用语音生成AI突破性进展插图4

最新快讯

2026年02月27日

10:26
微新创想:近日,湖南常德一对姐妹凭借创意十足的“塑料袋舞”成功创下吉尼斯世界纪录。她们在30秒内用5个塑料袋完成了88次交叉抛接,这一表演不仅展现了普通物品的趣味玩法,更成为大众休闲娱乐的新范本。 姐妹俩的表演源于一次偶然的灵感。据当事人郭女士介绍,她从事自由职业,姐姐则是医务工作者。两人最初通过网络视频接触这种舞蹈形式,被其独特的视觉效果吸引后开始自学练习...
10:26
微新创想:华为在西班牙马德里举行新品发布会 正式面向欧洲市场推出高端旗舰手机华为Mate 80 Pro 华为近日在西班牙马德里举办了一场备受关注的新品发布会 正式向欧洲市场推出了其最新的高端旗舰手机华为Mate 80 Pro 此次发布会不仅聚焦于手机产品 华为还同步发布了多款其他智能设备 包括华为MatePad Mini平板电脑和华为WATCH GT Run...
10:26
微新创想 小米智能室外摄像机4 4G双摄版为小米首款室外4G摄像机 原价499元 预约价469元 该设备彻底摆脱Wi-Fi和网线束缚 主打4G免费流量 双摄全景看护 适配各类无网络室外安防场景 内置不可拆卸的联通 电信双4G SIM卡 可根据信号强度智能切换优质网络 支持LTE FDD的1/3/5/8频段 只要有4G信号就能稳定工作 配套流量为米家APP...
10:26
微新创想 新一代SU7正式发布了全新配色赤霞红,小米介绍,该配色以破晓霞光为设计灵感,实现了霞光光影流转的视觉效果。在调研过程中,无论是用户呼声还是调研数据都表明,用户需要一种「很正」的红色,那是一种仿佛中国人血脉里传承下来的红,从而促使设计团队决心做出一款承载文化深度、又有质感的红色。小米汽车CMF设计师表示,我们希望用户看到这个颜色时,能感受到破晓时分那...
10:26
微新创想:vivo于2026年2月27日10时正式开启OriginOS 6系统公测招募活动,招募将持续至3月8日23时59分。此次公测覆盖了多款热门机型,包括vivo X Fold+、S19系列、Pad3和Pad5系列,以及iQOO 10和10 Pro、iQOO Pad2和Pad5系列等共计15款设备。所有符合条件的用户都可以通过手机内置的系统设置功能参与报...
10:26
微新创想:2月26日消息 据媒体报道 春节期间 一种名为拼豆的手工活动在年轻人圈子里彻底火了 这种通过彩色塑料颗粒拼贴并熨烫定型的小玩意 正迅速成为Z世代线下社交与休闲的新宠 从数据上看 这种火爆程度近乎夸张 春节期间Z世代在抖音平台上的团购订单量同比增长了65% 而在细分品类中 拼豆团购订单量的同比增幅竟然达到了惊人的9018% 这个数字远远超过了位居第二...
10:26
微新创想:2月27日,Sensor Tower发布《2026年移动应用市场报告》显示,TEMU以全年最高下载量位居2025年全球电商类应用首位。该报告覆盖全球主要市场,统计周期为2025年1月1日至12月31日。TEMU与SHEIN连续两年包揽前两名,凸显其在移动端用户获取方面的强劲表现。Amazon、Shopee、AliExpress等紧随其后。分析指出,...
10:26
微新创想:2026年2月25日,浙江京新药业股份有限公司正式向港交所提交上市申请,中信证券担任其独家保荐人。此次上市标志着公司在医药行业的重要一步,也体现了资本市场对其业务模式与市场前景的认可。 公司专注于中枢神经及心脑血管疾病治疗领域,业务范围广泛,涵盖仿制药、创新药、中药、生物制剂、原料药以及医疗器械等多个板块。通过多元化的产品布局,京新药业在多个细分市...
10:26
微新创想:2026年2月27日,英伟达为庆祝GeForce NOW云游戏服务上线六周年,推出了限时优惠活动。用户只要购买一年的GeForce NOW终极版服务,即可免费获得《生化危机:安魂曲》这款游戏。这款作品在Steam国区的售价为348元人民币,相当于约1022元人民币的价值。此次优惠活动不仅让玩家享受到高质量的云游戏体验,还提供了额外的游戏内容。 Ge...
10:26
微新创想:2026年2月27日,网友The Creator在Guru3D论坛泄露了AMD尚未发布的FSR 4.1.0 DLL文件(amdxcffx64-v2.1.0.968)。该文件源自AMD内部“Vanguard”测试驱动Adrenalin 26.3.1,原本是为RDNA 4架构定制的。这一泄露事件引发了广泛关注,因为FSR 4.1.0作为AMD最新的帧生...
10:26
微新创想:2026年2月,上海强思数科科技有限公司宣布完成B轮融资,由恩玺投资与兰璞资本联合投资。此次融资标志着公司在流程工业数字化领域迈出了重要一步,进一步巩固了其在行业内的领先地位。 微新创想:该公司作为流程工业数字化服务商,专注于化工、钢铁等传统重工业领域,致力于为客户提供从设计到运营的全生命周期数字化解决方案。通过整合先进的信息技术与行业经验,强思数...
10:26
微新创想:2026年2月,央山医疗宣布完成数千万元Pre-A+轮融资,爱迪特(301580)作为产业战略投资人领投,丹麓资本跟投。至此,该公司Pre-A轮与Pre-A+轮累计融资近亿元。 央山医疗专注于口腔及颌面外科领域,致力于通过先进的技术手段提升医疗服务质量。公司以手术机器人、人工智能及无源类创新医疗器械为核心产品,构建了覆盖诊疗全流程的解决方案体系。 ...