继开源 LLaMA 模型后,Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段,为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同,这些模型擅长处理文本和图像生成任务,而语音生成领域长期面临规模化和任务泛化难题。6月17日,Meta 发布了名为 Voicebox 的通用语音生成系统,该系统可合成六种语言的语音,并实现噪声消除、内容编辑、风格转换等多样化功能,被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta Voicebox通用语音生成AI突破性进展插图

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型,它能够像处理图像和文本一样生成多种风格的语音输出,既可从头创建全新语音,也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成,并具备强大的功能模块:

1. 噪声消除:通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑:可精准修改语音内容,替换错误词句
3. 风格转换:实现不同说话风格的切换
4. 样本多样化:生成更接近真实场景的语音数据

Meta Voicebox通用语音生成AI突破性进展插图1

在技术实现上,Voicebox 基于流匹配(Flow Matching)方法改进扩散模型,这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示,Voicebox 的可懂度(词错率1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)均优于英文语音生成模型 VALL-E,且处理速度提升20倍。在跨语言风格迁移任务中,Voicebox 将平均词错率从10.9%降至5.2%,音频相似度从0.335提高到0.481,在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据,导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型,能够学习文本与语音之间的高度非确定性映射关系,无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本,包括英语、法语、德语等六种语言及公共领域有声书资源。

Meta Voicebox通用语音生成AI突破性进展插图2

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务:

1. 文本转语音合成:仅需2秒输入样本即可匹配音频风格,为失语人士提供发声能力,并支持虚拟角色声音定制
2. 跨语言风格迁移:实现不同语言间的自然语音转换,促进跨语言交流
3. 语音降噪与编辑:可无缝修复噪声污染片段,甚至替换错误词句
4. 多样化语音采样:生成接近真实场景的语音,为语音助手训练提供高质量数据

Meta Voicebox通用语音生成AI突破性进展插图3

Meta 实验证明,基于 Voicebox 合成语音训练的语音识别模型表现接近真实语音训练水平,错误率仅高出1%,而传统文本转语音模型训练数据会导致45%-70%的错误率。

作为首个成功实现任务泛化的多功能模型,Voicebox 开创了语音生成式AI的新纪元。但 Meta 同时强调需警惕技术滥用风险,已开发语音分类器用于识别真实语音与合成音频。这一突破性进展将推动生成式AI在文本、图像和视频领域的应用升级,为人工智能发展注入新动能。

Meta Voicebox通用语音生成AI突破性进展插图4

最新快讯

2026年01月12日

15:40
短视频平台正成为全民科技素养提升的新课堂。抖音最新发布的《 2025 抖音科技内容生态报告》揭示了一个惊人趋势:过去一年,平台科技类内容总观看量突破1. 4 万亿次,相当于每位活跃用户平均每天接触科技内容超过 6 次,科技信息的普及已深度融入大众日常数字生活。其中,人工智能(AI)成为绝对焦点。报告显示, 2025 年抖音上AI学习类内容观看量同比激增200...
15:40
印度科技巨头信实工业(Reliance Industries)近日震撼全球商业界,公布了一项雄心勃勃的投资计划。公司主席穆克什·安巴尼(Mukesh Ambani)正式宣布,未来五年将向古吉拉特邦追加投资高达7万亿卢比,这一数字是过去五年投资额的两倍,彰显了其在人工智能领域的战略决心。 此次投资的核心项目是在贾姆纳格尔建设印度规模最大的AI就绪数据中心。...
15:40
近日,OpenAI 与日本软银集团宣布,将联合投资10亿美元,计划用于一家能源和数据中心供应商的建设。此次投资将专注于支持 OpenAI 的 “星际大门” 基础设施项目,旨在提升数据处理能力和能效。据悉,SB Energy(软银旗下的能源公司)已获得合同,将为 OpenAI 建设一座新的数据中心。这座数据中心将用于支持 ChatGPT 等人工智能应用的计算需...
15:40
在刚刚拉开帷幕的 CES2026消费电子展上,AI 技术的触角正式伸向了庞大的潮流玩具收藏市场。随着各种 AI 伴侣和机器人层出不穷,两家名为 HeyMates 和 Buddyo 的初创企业引起了广泛关注。它们试图通过 AI 技术重塑手办体验,让桌上的收藏品不再仅仅是冰冷的摆件。这两家公司的核心理念不谋而合:将传统的 Q 版手办放置在一个集成有扬声器、麦克风...
15:40
多模态人工智能的商业化浪潮正加速席卷资本市场。1月12日,A股多模态AI概念板块强势爆发,焦点科技、易点天下、引力传媒、新华网、浙数文化等个股全线涨停,昆仑万维、中文在线、拓尔思、因赛集团、万兴科技、宣亚国际等纷纷跟涨,掀起一轮强劲的AI主题行情。此次市场躁动并非无源之水。近期,以通义千问Qwen3-VL、GPT-5.2等为代表的多模态大模型接连取得技术突破...
15:40
深度求索计划于今年2月中旬,正值农历新年前后,正式推出备受期待的下一代旗舰大模型——DeepSeek-V4。这款全新模型的核心目标在于革命性地提升代码生成效率与长代码上下文处理能力,为全球开发者带来前所未有的强大支持。作为深度求索自去年12月发布V3.2版本以来的重要升级,DeepSeek-V4的问世不仅代表了技术的飞跃,更预示着人工智能在软件开发领域的崭新...
15:11
声明:本文来自于微信公众号 定焦One,作者:陈丹,授权站长之家转载发布。2025年的文娱行业,顶峰与谷底之间的落差,或许比任何一个剧本都更富戏剧性。年初,《哪吒:魔童闹海》(下称“哪吒2”)以超过150亿元的票房,把中国电影市场推上一个近乎不可思议的高度;但到年底,人们才意识到:这一年的聚光灯,实际上只照亮了极少数作品。从数据...
15:11
声明:本文来自于微信公众号 硅星人Pro,作者:黄小艺,授权站长之家转载发布。如果三年前有人告诉你,一个没有周杰伦等专属大牌、没有热门综艺 OST 的音乐 APP,能在月活上逼近网易云音乐,你会觉得这是天方夜谭。在线音乐是版权为王的游戏,这是过去十年的铁律。腾讯音乐花几十亿买独家,网易云砸钱养原创,谁有歌谁就赢。但现在,例外出现...
15:10
2026年1月12日,微盟集团正式推出GEO解决方案——微盟星启。该方案基于自研生成式引擎优化(GEO)技术,旨在提升品牌在AI生态中的可见度。通过系统性布局,微盟星启助力企业在AGI时代构建品牌AI认知资产,覆盖消费者决策全链路,增强品牌竞争力。此次发布标志着微盟在AI营销领域的进一步深化,为电商企业提供智能化增长新路径。
15:10
2026年1月12日,realme举行屏幕技术沟通会,宣布即将发布的真我Neo8为品牌开年越级之作。该机将全球首发165Hz三星苍穹屏,搭载最新M14旗舰发光材料,手动峰值亮度达1000nit,全局峰值1800nit,局部峰值高达6500nit,并支持3800nit阳光显示。其在3800nit高亮下仍可实现103% P3广色域,色彩表现媲美顶级旗舰。新机配...
15:10
2026年1月12日,在CES 2026上,MIT衍生企业Brelyon发布了Ultra Reality系列最新产品——Ultra Reality Mini。该设备本体为16英寸,可呈现相当于55英寸的视觉效果,支持UHD分辨率(3840×2160)60Hz刷新率,FOV达86°,单眼深度范围为0.7~1.0米,亮度为170nits。用户可选配Acoust...
15:10
2026年1月12日,备受全球旅游界瞩目的权威媒体《旅行与旅游世界》正式揭晓了年度全球50佳机场榜单。这一排名创新性地以智能技术在旅客体验、运营效率及可持续出行方面的深度融合与应用深度作为核心评判标准,为全球机场的现代化发展提供了全新参照系。在最新出炉的榜单中,迪拜国际机场(DXB)凭借其卓越的智能化水平强势领跑,新加坡樟宜机场(SIN)与旧金山国际机场(S...