继开源 LLaMA 模型后,Meta 在生成式 AI 领域再推重磅研究成果。这一突破性进展标志着语音生成技术迈入全新阶段,为自然语言处理和计算机视觉研究注入新活力。与 GPT、DALL-E 等大型生成模型不同,这些模型擅长处理文本和图像生成任务,而语音生成领域长期面临规模化和任务泛化难题。6月17日,Meta 发布了名为 Voicebox 的通用语音生成系统,该系统可合成六种语言的语音,并实现噪声消除、内容编辑、风格转换等多样化功能,被 Meta 称为”最通用的语音生成 AI”。相关技术论文已公开发布。

论文:https://research.facebook.com/publications/voicebox-text-guided-multilingual-universal-speech-generation-at-scale/

Meta Voicebox通用语音生成AI突破性进展插图

Voicebox 创新性地打破了传统语音生成模型的局限。作为首个无需专门语音训练即可泛化到语音生成任务的模型,它能够像处理图像和文本一样生成多种风格的语音输出,既可从头创建全新语音,也能修改现有样本。该系统支持英语、法语、德语、西班牙语、波兰语和葡萄牙语六种语言合成,并具备强大的功能模块:

1. 噪声消除:通过深度学习算法自动过滤音频中的环境噪声
2. 内容编辑:可精准修改语音内容,替换错误词句
3. 风格转换:实现不同说话风格的切换
4. 样本多样化:生成更接近真实场景的语音数据

Meta Voicebox通用语音生成AI突破性进展插图1

在技术实现上,Voicebox 基于流匹配(Flow Matching)方法改进扩散模型,这一创新使其在多个关键指标上超越现有顶尖模型。实验数据显示,Voicebox 的可懂度(词错率1.9% vs 5.9%)和音频相似度(0.681 vs 0.580)均优于英文语音生成模型 VALL-E,且处理速度提升20倍。在跨语言风格迁移任务中,Voicebox 将平均词错率从10.9%降至5.2%,音频相似度从0.335提高到0.481,在词错率指标上实现新的SOTA表现。

现有语音合成技术的核心瓶颈在于训练数据的局限性。传统合成器依赖精心准备的单调纯净数据,导致训练成本高昂且输出效果单一。Voicebox 采用流匹配模型,能够学习文本与语音之间的高度非确定性映射关系,无需精细标注即可处理多样化语音数据。Meta 训练该模型时使用了50,000小时的多语言录音和转录文本,包括英语、法语、德语等六种语言及公共领域有声书资源。

Meta Voicebox通用语音生成AI突破性进展插图2

Voicebox 的上下文学习能力使其能够胜任多种语音生成任务:

1. 文本转语音合成:仅需2秒输入样本即可匹配音频风格,为失语人士提供发声能力,并支持虚拟角色声音定制
2. 跨语言风格迁移:实现不同语言间的自然语音转换,促进跨语言交流
3. 语音降噪与编辑:可无缝修复噪声污染片段,甚至替换错误词句
4. 多样化语音采样:生成接近真实场景的语音,为语音助手训练提供高质量数据

Meta Voicebox通用语音生成AI突破性进展插图3

Meta 实验证明,基于 Voicebox 合成语音训练的语音识别模型表现接近真实语音训练水平,错误率仅高出1%,而传统文本转语音模型训练数据会导致45%-70%的错误率。

作为首个成功实现任务泛化的多功能模型,Voicebox 开创了语音生成式AI的新纪元。但 Meta 同时强调需警惕技术滥用风险,已开发语音分类器用于识别真实语音与合成音频。这一突破性进展将推动生成式AI在文本、图像和视频领域的应用升级,为人工智能发展注入新动能。

Meta Voicebox通用语音生成AI突破性进展插图4

最新快讯

2025年10月02日

13:23
円星科技(M31)作为全球硅智财(IP)领域的佼佼者,近日传来振奋人心的消息其低功耗IP解决方案在台积电N12e制程上取得突破性进展后,进一步将技术版图拓展至N6e先进制程,成功推出全新存储器编译器系列。该系列IP解决方案专为超低漏电(ULL)、极低漏电(ELL)和低电压操作(Low-VDD)设计,能够完美契合高性能与低功耗并重的应用场景,为物联网、移动设备...
13:23
海口国际机场福朋喜来登酒店盛大启幕,正式宣告这一国际知名酒店品牌首次登陆海口市场。酒店坐落于美兰区海瑜大道,地理位置优越,距离海口美兰国际机场及美兰高铁站仅约5公里,无论是商务出行还是休闲度假,都能实现便捷通达。 作为福朋喜来登品牌在海南的首个落脚点,该酒店精心打造了149间客房与套房,每一间都配备了高品质床品系统,确保宾客享受极致舒适的睡眠体验。55英...
13:23
乐山福朋喜来登酒店盛大启幕,标志着国际知名酒店品牌福朋喜来登正式进驻乐山,为这座千年古城注入全新的住宿体验。酒店坐落于风景秀丽的五通桥区竹根镇岷江道北段,与壮丽的岷江、历史悠久的王爷庙以及静谧的菩提山公园仅咫尺之遥,周边环绕着充满活力的晶硅光伏高新产业区,地理位置得天独厚。 酒店交通极为便利,距离乐山市中心约25公里,乘坐高铁仅需29公里,前往乐山机场只需1...
13:23
今日中午,北京时间传来重磅消息,全球人工智能领域的领军企业OpenAI成功完成了一笔高达约66亿美元的二级市场股份转让交易。这一交易不仅为公司带来了巨额资金,更使其估值实现了飞跃式增长,一跃升至令人瞩目的5000亿美元,从而超越了科技巨头SpaceX,正式加冕为全球估值最高的初创企业。值得注意的是,OpenAI的估值在此前已从3000亿美元的基础上实现了翻倍...
12:50
烟台芝罘福朋喜来登酒店近日盛大开业,为这座海滨城市的旅游市场注入了强劲的新动能。这座现代化酒店坐落于芝罘区海港路黄金地段,紧邻烟台站和烟台港客运站,无论是火车还是轮渡出行都极为便利。值得一提的是,前往烟台蓬莱国际机场仅需45分钟车程,立体交通网络为商务和休闲旅客提供了无与伦比的出行体验。 酒店拥有107间精心设计的现代风格客房,每一间都配备了65寸液晶电视、...
12:50
上海佘山世茂艾美酒店近日以全新面貌焕新登场,正式宣告该奢华品牌再度进驻备受瞩目的佘山旅游度假区。作为佘山国家旅游度假区的核心地标,酒店毗邻月湖雕塑公园与佘山森林公园两大自然人文景观,距离上海南站仅25公里,虹桥国际机场24公里,形成便捷的都会连接枢纽。 此次升级后的酒店共设有330间精致客房与套房,每间客房均配备独立阳台,最小面积达55平方米,为宾客提供私享...
12:50
2025年10月2日,中金公司投资银行部负责人孙雷在行业峰会上发表重要观点,强调并购重组已成为推动中国经济结构调整与高质量发展的核心引擎。他指出,这一趋势不仅优化了资源配置效率,更在深层次上促进了产业升级与经济转型。孙雷基于详尽的市场数据分析,预测2025年中国并购市场全年交易规模将突破历史峰值,有望接近过去十年的最高水平,展现出强劲的增长动能与广阔的发展前...
12:50
近日,美国知名投资机构Burkhan Capital LLC与纳斯达克上市公司Robo.ai Inc正式签署总额达2.7亿美元的战略投资协议,标志着双方将在人工智能领域展开深度合作。此次投资将全面赋能Robo.ai在AI软件、智能硬件及智慧资产三大核心战略方向的发展,为其核心产品商业化进程注入强劲动力。 作为全球领先的智能科技企业,Robo.ai此次获得的战...
12:50
加拿大西捷航空近日向外界披露了一起新的网络攻击事件,导致约120万名乘客的个人信息遭到窃取。根据该公司向缅因州司法部门提交的官方文件,泄露的数据范围广泛,涵盖了乘客的姓名、出生日期、居住地址、旅行证件信息以及护照号码等核心隐私内容。值得注意的是,部分乘客的投诉记录和常旅客计划资料也可能在此次攻击中不幸外泄,进一步加剧了数据安全风险。 此次数据泄露事件发生在今...
12:49
美国卫生与公共服务部近日宣布一项重大决策,将显著加大对儿童癌症研究的资金投入,并加速人工智能技术在儿童癌症诊断、治疗及预防领域的创新应用。根据该部门最新发布的官方公报,"儿童癌症数据倡议"的年度预算将从5000万美元大幅提升至1亿美元,增幅高达100%,这一举措标志着美国在儿童癌症防治领域迈入新的发展阶段。 该"儿童癌症数据倡议"自2019年启动以来,一直致...
12:16
北京现代今日重磅发布旗下首款纯电平台SUV“EO羿欧”的七款专属定制配色,以“天地星光韵色”为主题,巧妙融合东方哲学智慧与未来科幻美学,为用户带来前所未有的视觉盛宴。 暮山紫灵感源自《滕王阁序》中“紫气东来”的意境,以深邃的紫色调勾勒出神秘而高贵的气质,仿佛将东方古典美学与现代科技完美融合。赛博银则通过液态金属的独特质感,呈现出流光溢彩的未来文明景象,彰...
11:46
2025年9月26日,备受瞩目的2025人工智能计算大会在北京中关村展示中心隆重举行。作为行业领军企业,浪潮信息在此次盛会中重磅亮相,重点展示了其最新研发的元脑SD200超节点AI服务器和元脑HC1000超扩展AI服务器两大创新系统。这两款产品不仅代表了浪潮信息在AI计算领域的尖端技术实力,更展现了其在推动智能计算技术革新的坚定决心。 在性能表现方面,元脑S...