Meta近期推出了一项令人瞩目的音频AI技术大礼包——AudioCraft,涵盖文本生成音乐、音效、音频压缩及编辑等全方位功能。这一系列开源模型不仅功能全面,而且全部免费使用,为音频创作领域带来了革命性变革。无论是生成一段流行舞曲(提示词:流行舞曲,旋律朗朗上口,热带打击乐和欢快的节奏,量子位,30秒),还是创作一段风吹口哨的音效(提示词:吹着风吹口哨,量子位,5秒),只需简单一句文本提示,即可轻松实现。

Meta特别强调,所有AI模型的训练数据均来自授权渠道或公开资源,确保了技术的合规性和安全性。这一举措不仅赢得了用户的好评,也引发了行业对AI数据伦理的深入思考。有网友惊叹道:“这太疯狂了,刚刚试了一下,生成的声音效果真不错!”而另一些网友则幽默地调侃,Meta此举意在与OpenAI划清界限,彰显其对数据合规的坚定立场。

AudioCraft究竟包含哪些强大功能?实际生成效果如何?让我们深入了解一下这一音频AI三件套。AudioCraft是一个开源音频AI库,目前包含MusicGen、AudioGen和EnCodec三个核心工具。Meta为了发布AudioCraft,还特意更新了EnCodec模型,提升了输出质量,使其更加出色。

MusicGen:基于文本输入生成音乐。该模型使用Meta拥有和授权的音乐数据进行训练,包括20000小时的音乐素材,涵盖10000条内部搜集的高质量音轨,以及ShutterStock和Pond5素材库中的大量数据。这些音乐数据在32kHz下重新采样,并配有流派、BPM等详细信息,确保生成音乐的多样性和高质量。

AudioGen:基于文本输入生成音效。该模型基于10个公开音效数据集进行训练,包括狗吠、汽车鸣喇叭、木地板脚步声等各种音效,为用户提供了丰富的音效选择。

EnCodec:音频压缩工具。该模型能够以极低的音损保持音频的高质量,压缩效果比MP3格式还要小10倍,为音频存储和传输提供了极大的便利。

这三个模型均基于PyTorch框架开发,用户可以直接上手试玩。MusicGen还提供了Demo试玩功能,让用户能够直观体验其强大功能。GitHub项目中也包含了MusicGen、AudioGen和EnCodec的论文细节,方便用户深入了解其技术原理。

然而,AudioCraft的发布也引发了一些争议。有网友认为,音频生成就变得更加大众化,所有人都可以轻松上手尝试;但也有网友担心,这可能导致人类连音频的真假都难以区分,10年后或许连过去的声音、图片、视频都无法分辨。尽管存在争议,AudioCraft无疑为音频创作领域带来了新的可能性。

One More Thing:最近,音频生成AI技术发展迅速,就连效果都卷起来了。一个名为AudioLDM2的模型,虽然论文和代码还在准备中,但刚放出demo就已经在网上传开了。作者Haohe Liu表示,该模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA水平。从实际生成效果来看,确实不错,感兴趣的小伙伴们,可以蹲一波后续了~

MusicGEN试玩地址:https://huggingface.co/spaces/facebook/MusicGen

参考链接:
[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
[2]https://github.com/facebookresearch/audiocraft
[3]https://twitter.com/LiuHaohe/status/1686782804518973440
[4]https://news.ycombinator.com/item?id=36972347

最新快讯

2026年02月10日

20:03
微新创想:2026年2月10日,英特尔正式发布Wi-Fi驱动更新包24.20.0 该版本驱动适配Windows 10 64位及Windows 11操作系统 对应驱动版本为24.20.0.4 此次更新标志着英特尔在无线网络技术领域迈出了重要一步 该版本首次支持BE211、BE213等新一代Wi-Fi 7网卡 同时确认Wi-Fi 7完整功能需Windows 11...
20:03
微新创想:2026年2月9日,美国加州北区法院文件显示,OpenAI因商标纠纷决定不在任何AI硬件产品中使用“io”或“IYO”名称。此举源于音频初创公司iyO发起的侵权诉讼。 公司副总裁Peter Welinder确认,首款无屏桌面AI硬件将不早于2027年2月28日面向消费者发货。目前该设备仍处原型阶段,尚未启动包装与营销材料制作。 原计划中,这款AI硬...
20:03
微新创想:2026年1月30日,摩尔线程宣布开源TileLang-MUSA项目,今日再次发布。该项目实现了对高层张量分块编程语言TileLang的完整支持,并已在MTT S5000、S4000等国产GPU平台上完成验证。TileLang采用类似Python的声明式语法,使得开发者能够以更简洁的方式表达复杂的张量操作。 微新创想:TileLang支持自动循环优...
20:03
微新创想:2026年2月3日,韩国媒体报道称Nexon已与暴雪达成合作,正式启动基于《星际争霸》IP的新游戏项目。这一消息引起了业界广泛关注,标志着Nexon在游戏开发领域迈出了重要一步。 该项目由Nexon射击事业本部主导,计划采用第一人称射击(FPS)或第三人称射击(TPS)玩法,而非传统的即时战略(RTS)模式。这一选择表明Nexon希望将《星际争霸》...
20:03
微新创想:2026年2月6日,户外品牌KOLON SPORT可隆在北京华贸购物中心正式启用品牌体验旗舰店“KOLON ATLAS可隆自然典集”。这一全新门店由品牌自主打造,致力于通过沉浸式空间展现自然探索的核心理念。店内不仅展示了可隆最新的产品系列,还融入了丰富的文化互动元素和生活方式体验,为顾客带来全方位的感官享受。 旗舰店选址于北京核心商业区,精准定位都...
20:03
微新创想:2026年2月10日,阿里云宣布通过ICANN全面技术评估,成为中国首家具备顶级域名全链路服务能力的云服务商 阿里云此次通过评估,标志着其在顶级域名服务领域达到了国际领先水平。该认证覆盖了新顶级域名申请、域名资产管理、DNS解析、安全防护以及云部署等多个关键环节,为用户提供了一站式的解决方案 此前,企业在申请地域性顶级域名时往往需要与多个机构进行协...
19:02
微新创想:2026年2月10日,国际DRAM现货市场整体持稳,DDR5部分颗粒结束连续数日小幅下跌,出现温和反弹。市场情绪有所回暖,显示出一定的复苏迹象。 DDR5 16Gb(2Gx8)4800/5600规格颗粒价格上涨0.41%,均价达到38美元。这一涨幅虽然不大,但标志着市场开始对近期的供需变化做出反应。 同容量的eTT版本颗粒也出现了上涨,涨幅为0.5...
19:02
微新创想:2026年2月10日,制造商Musnap在海外正式推出Ocean C彩色墨水屏电纸书。这款设备采用了7英寸的Kaleido 3面板,具备300PPI的黑白显示和150PPI的彩色显示,为用户带来更清晰细腻的阅读体验。其硬件配置也相当扎实,搭载了8核处理器、4GB RAM以及64GB存储空间,能够流畅运行安卓14系统。 微新创想:Ocean C不仅在...
19:02
微新创想:2026年2月10日,四川资阳乐至县太平2号特大桥现场传来喜讯,中铁十九局成功完成最后一孔箱梁的架设工作,标志着成渝中线高铁四川段桥梁工程全面竣工。这一重要节点的达成,不仅为后续的铺轨作业和联调联试提供了坚实基础,也意味着整个项目正式迈入全面冲刺阶段。 此次桥梁工程由长江沿岸铁路集团四川有限公司负责建设管理,覆盖四川境内的全线桥梁结构。作为成渝中线...
19:02
微新创想:2026年2月10日,上海召开年度市重大工程建设工作会议。全市共安排重大工程正式项目184项、预备项目14项,计划新开工16项、基本建成22项,年度投资2550亿元,创历史新高。此次会议标志着上海在推动城市高质量发展方面迈出了坚实一步。 微新创想:项目聚焦“五个中心”建设,涵盖科技创新、产业升级、基础设施完善、文化教育提升、医疗卫生优化、生态环境改...
19:02
微新创想:2026年2月10日 大位科技发布异动公告回应市场误读 大位科技(600589.SH)在2026年2月10日发布公告 明确回应市场对其算力租赁概念的误解 公司股票在2026年2月6日、9日、10日连续三日涨幅偏离值超过20% 引起投资者广泛关注 面对市场对算力租赁业务的猜测 公司在公告中强调其相关业务收入占比并不高 2024年前三季度 大位科技的算...
19:02
微新创想:2026年2月10日,由世茂集团商业地产商娱公司与章丘控股集团联合打造的章丘世茂广场在济南市章丘区东部核心板块正式开业。项目总建筑面积约14万平方米,定位为区域旗舰级城市综合体,涵盖商业零售、休闲娱乐、餐饮及服务等多种业态。选址依托高阶居住人群集聚区,旨在提升东部片区商业能级与消费体验。该项目是目前章丘规模最大的城市综合体,标志着区域商业升级迈出关...