继开源 LLaMA 模型后,Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段,为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同,这些模型擅长处理文本和图像生成任务,而语音生成领域长期面临规模化和任务泛化难题。6月17日,Meta 发布了名为 Voicebox 的通用语音生成系统,该系统可合成六种语言的语音,并实现噪声消除、内容编辑、风格转换等多样化功能,被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta Voicebox通用语音生成AI突破性进展插图

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型,它能够像处理图像和文本一样生成多种风格的语音输出,既可从头创建全新语音,也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成,并具备强大的功能模块:

1. 噪声消除:通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑:可精准修改语音内容,替换错误词句
3. 风格转换:实现不同说话风格的切换
4. 样本多样化:生成更接近真实场景的语音数据

Meta Voicebox通用语音生成AI突破性进展插图1

在技术实现上,Voicebox 基于流匹配(Flow Matching)方法改进扩散模型,这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示,Voicebox 的可懂度(词错率1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)均优于英文语音生成模型 VALL-E,且处理速度提升20倍。在跨语言风格迁移任务中,Voicebox 将平均词错率从10.9%降至5.2%,音频相似度从0.335提高到0.481,在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据,导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型,能够学习文本与语音之间的高度非确定性映射关系,无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本,包括英语、法语、德语等六种语言及公共领域有声书资源。

Meta Voicebox通用语音生成AI突破性进展插图2

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务:

1. 文本转语音合成:仅需2秒输入样本即可匹配音频风格,为失语人士提供发声能力,并支持虚拟角色声音定制
2. 跨语言风格迁移:实现不同语言间的自然语音转换,促进跨语言交流
3. 语音降噪与编辑:可无缝修复噪声污染片段,甚至替换错误词句
4. 多样化语音采样:生成接近真实场景的语音,为语音助手训练提供高质量数据

Meta Voicebox通用语音生成AI突破性进展插图3

Meta 实验证明,基于 Voicebox 合成语音训练的语音识别模型表现接近真实语音训练水平,错误率仅高出1%,而传统文本转语音模型训练数据会导致45%-70%的错误率。

作为首个成功实现任务泛化的多功能模型,Voicebox 开创了语音生成式AI的新纪元。但 Meta 同时强调需警惕技术滥用风险,已开发语音分类器用于识别真实语音与合成音频。这一突破性进展将推动生成式AI在文本、图像和视频领域的应用升级,为人工智能发展注入新动能。

Meta Voicebox通用语音生成AI突破性进展插图4

最新快讯

2026年04月14日

15:42
微新创想:叶国富旗下或将再添第三家上市公司。2022年,叶国富公开称,“3年内让TOP TOY实现单独上市”。去年3月,名创优品旗下潮玩品牌TOP TOY传出拆分上市消息,去年9月26日,TOP TOY正式向港交所递交招股书。半年前首次递交的招股书于今年3月26日失效后,TOP TOY于3月31日更新招股书,再闯港交所。招股书提出,未来五年计划在全球100个...
15:36
微新创想:据 Readhub 报道 OpenAI 首席营收官德尼丝・德雷塞尔的一份四页内部备忘录曝光 信中言辞犀利地质疑竞争对手 Anthropic 近期发布的营收数据严重“注水”并指责其产品力无法支撑平台级竞争 核心争议:300 亿背后的“总额法”财技一周前 Anthropic 官宣其年化收入达到 300 亿美元一举反超 OpenAI 但这份备忘录指出了其...
15:36
微新创想:据报道特斯拉正式公布了2026年春季软件更新这不仅是该公司迄今为止功能密度最高的一次季节性OTA更标志着车载AI交互与自动驾驶体验的全面进化 核心亮点Grok开启嘿语音唤醒车载AI助手Grok迎来了自2025年7月上车以来的最大幅度升级免打扰唤醒现在只需说出嘿Grok即可直接启动无需手动点击离别时说声再见即可关闭位置感知提醒具备了更强的生活助理属性...
15:36
微新创想:4月14日,针对近期媒体关于人工智能生成内容(AIGC)安全问题的讨论,哩布哩布AI正式发布官方公告表示高度重视,并通报了内部专项排查及整改进展 公告承认在个别复杂提示词组合及规避表达的边界场景下,平台生成能力曾出现不符合规范的情况 目前哩布哩布AI已完成相关问题的技术修复并对已知的风险路径进行了全面封堵 为防止此类问题再次发生平台同步启动了审核机...
15:13
微新创想:4月15日,劳斯莱斯将在全球首发一款全新纯电动敞篷车型。该车基于闪灵平台打造,但外观显著区别于现款闪灵,车尾设计酷似限量定制款逐影(Droptail),修长引擎盖与大倾角挡风玻璃凸显奢华运动气质。新车为品牌自2023年曜影停产后重启的敞篷序列,亦是其首款纯电敞篷车型。 劳斯莱斯已确认本月首发的高级定制系列首款车型为纯电驱动,新车或命名为‘Spect...
15:13
微新创想:2026年4月13日,天文学家David Jewitt重新分析哈勃太空望远镜2017年12月的观测数据,发现直径约1公里的彗星41P/Tuttle-Giacobini-Kresák的自转周期已缩短至约14小时。此前,该彗星在2017年5月的自转周期为46到60小时。这一变化表明,太阳辐射导致彗星表面的冰层升华,形成喷流并产生反向力矩,使得其自转速度...
15:13
微新创想:2026年4月10日,赛力斯汽车有限公司申请的“车载便器及车辆”实用新型专利(CN224104011U)获国家知识产权局正式授权。该专利于2025年4月22日提交,旨在解决长途出行中乘客内急难题。 微新创想:其结构包含便器主体与隐藏式滑轨系统,滑动轨与座椅联动,日常收纳于座椅下方,不占空间、外观隐蔽。这种设计不仅节省车内空间,还能有效保持车辆整洁,...
15:13
微新创想:2026年4月,美国免疫药物研发企业ImageneBio宣布完成3000万美元融资。本轮融资由奥博资本(OrbiMed)和Omega Funds联合参投。公司正加速推进其核心候选药物IMG-007——一款靶向OX40的单克隆抗体——用于治疗中重度特应性皮炎的临床开发。 IMG-007已进入II期临床试验阶段,旨在通过调节T细胞免疫应答改善炎症性皮肤...
15:13
微新创想:2026年4月,AI驱动金融自动化平台Round Treasury宣布完成510万欧元种子轮融资。本轮融资由Alstin Capital领投,Paul Forster、Tide、Passion Capital等多家知名机构及金融科技企业跟投。这一轮融资标志着Round Treasury在金融科技领域的重要进展,为其进一步发展奠定了坚实基础。 该公司...
15:12
微新创想:2026年4月13日,全球知名的在线旅游平台Booking.com正式确认发生了一起数据泄露事件。此次事件影响了部分用户的个人信息,包括姓名、电子邮箱、住址、电话号码以及用户在预订过程中向住宿方提供的其他资料。值得注意的是,Booking.com表示目前尚未发现用户的金融支付信息被窃取,但为了进一步降低潜在风险,公司已对相关订单的PIN码进行了重置...
15:12
微新创想:2026年4月14日,丹麦诺和诺德公司宣布与OpenAI建立战略合作伙伴关系。此次合作标志着两家公司在人工智能与生命科学领域的深度融合,旨在通过先进的AI技术推动医药行业的创新变革。 双方将把人工智能技术深度应用于药物研发、制造及商业运营全流程。这一合作不仅涵盖药物研发的各个环节,还包括生产制造和供应链管理,力求在每一个关键节点实现智能化升级。 合...
15:12
微新创想:2026年4月14日,瑞典海克斯康公司宣布将以14.5亿美元现金收购工业检测技术服务商Waygate 此次交易发生于全球范围内,买方为总部位于瑞典的Hexagon,卖方为专注无损检测的美国企业Waygate。根据公告内容,交易的完成将有助于Hexagon进一步拓展其在多个关键工业领域的技术实力 此次收购旨在强化Hexagon在航空航天、新能源电池、...