Meta近期推出了一项令人瞩目的音频AI技术大礼包——AudioCraft,涵盖文本生成音乐、音效、音频压缩及编辑等全方位功能。这一系列开源模型不仅功能全面,而且全部免费使用,为音频创作领域带来了革命性变革。无论是生成一段流行舞曲(提示词:流行舞曲,旋律朗朗上口,热带打击乐和欢快的节奏,量子位,30秒),还是创作一段风吹口哨的音效(提示词:吹着风吹口哨,量子位,5秒),只需简单一句文本提示,即可轻松实现。

Meta特别强调,所有AI模型的训练数据均来自授权渠道或公开资源,确保了技术的合规性和安全性。这一举措不仅赢得了用户的好评,也引发了行业对AI数据伦理的深入思考。有网友惊叹道:“这太疯狂了,刚刚试了一下,生成的声音效果真不错!”而另一些网友则幽默地调侃,Meta此举意在与OpenAI划清界限,彰显其对数据合规的坚定立场。

AudioCraft究竟包含哪些强大功能?实际生成效果如何?让我们深入了解一下这一音频AI三件套。AudioCraft是一个开源音频AI库,目前包含MusicGen、AudioGen和EnCodec三个核心工具。Meta为了发布AudioCraft,还特意更新了EnCodec模型,提升了输出质量,使其更加出色。

MusicGen:基于文本输入生成音乐。该模型使用Meta拥有和授权的音乐数据进行训练,包括20000小时的音乐素材,涵盖10000条内部搜集的高质量音轨,以及ShutterStock和Pond5素材库中的大量数据。这些音乐数据在32kHz下重新采样,并配有流派、BPM等详细信息,确保生成音乐的多样性和高质量。

AudioGen:基于文本输入生成音效。该模型基于10个公开音效数据集进行训练,包括狗吠、汽车鸣喇叭、木地板脚步声等各种音效,为用户提供了丰富的音效选择。

EnCodec:音频压缩工具。该模型能够以极低的音损保持音频的高质量,压缩效果比MP3格式还要小10倍,为音频存储和传输提供了极大的便利。

这三个模型均基于PyTorch框架开发,用户可以直接上手试玩。MusicGen还提供了Demo试玩功能,让用户能够直观体验其强大功能。GitHub项目中也包含了MusicGen、AudioGen和EnCodec的论文细节,方便用户深入了解其技术原理。

然而,AudioCraft的发布也引发了一些争议。有网友认为,音频生成就变得更加大众化,所有人都可以轻松上手尝试;但也有网友担心,这可能导致人类连音频的真假都难以区分,10年后或许连过去的声音、图片、视频都无法分辨。尽管存在争议,AudioCraft无疑为音频创作领域带来了新的可能性。

One More Thing:最近,音频生成AI技术发展迅速,就连效果都卷起来了。一个名为AudioLDM2的模型,虽然论文和代码还在准备中,但刚放出demo就已经在网上传开了。作者Haohe Liu表示,该模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA水平。从实际生成效果来看,确实不错,感兴趣的小伙伴们,可以蹲一波后续了~

MusicGEN试玩地址:https://huggingface.co/spaces/facebook/MusicGen

参考链接:
[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
[2]https://github.com/facebookresearch/audiocraft
[3]https://twitter.com/LiuHaohe/status/1686782804518973440
[4]https://news.ycombinator.com/item?id=36972347

最新快讯

2026年02月10日

18:15
微新创想 vivo Pad6 Pro已经正式获得入网许可。这款新品配备了一块13英寸的巨型屏幕,为用户带来更广阔的视觉体验。同时,它搭载了高通第五代骁龙8至尊版(骁龙8E5)旗舰平台,性能方面实现了全面升级。作为一款定位巨屏生产力的旗舰设备,vivo Pad6 Pro也是蓝厂历史上性能最强悍的平板电脑。 回顾去年4月份发布的vivo Pad5 Pro,当时该...
18:15
微新创想 iQOO Z11系列已经正式获得入网许可 该系列涵盖了iQOO Z11和iQOO Z11X两款机型 内部型号为V2551A 其中备受关注的iQOO Z11X采用了一块6 76英寸的LCD高刷屏 分辨率达到FHD级别 该机搭载了高通骁龙7s Gen4平台 被视为iQOO在2026年专门为千元档位打造的LCD神机 对比目前主流的OLED面板 LCD...
18:12
微新创想:随着全球企业产生的视频数据量达到前所未有的高度 如何处理那些被长期封存 从未被观看或分析过的“暗数据”已成为行业新挑战 近日 由两名前谷歌资深员工创办的东京初创公司 InfiniMind 宣布 已成功筹集 580 万美元种子轮融资 该公司正致力于构建一种全新的 AI 基础设施 旨在将 PB 级别的原始视频和音频转化为可搜索 可结构化的商业智能数据 ...
18:12
微新创想:在全球AI短剧的热浪中,昆仑万维再次展现了其强大的统治力。继2024年底投资5亿美金杀入海外短剧赛道后,该公司近期宣布追加千万美金,旨在深耕并强化海外AI短剧的创作生态。这一系列动作不仅彰显了昆仑万维对AI内容产业的重视,也预示着其在该领域持续扩张的决心。 MAU突破8000万,AI短剧“吸金”能力惊人。昆仑万维旗下的DramaWave和FreeR...
18:00
微新创想:2月9日,为恒智能科技股份有限公司向港交所递交IPO招股书,华泰国际与招银国际担任联席保荐人。公司专注数智化工商业储能解决方案,依托自研能源管理算法及全栈技术框架服务全球客户。截至2025年9月30日九个月,其中国工商业储能出货量居全国第八、海外第三。 2023—2024年收入分别为2.67亿、2.68亿元;2025年前三季度收入达4.76亿元,同...
18:00
微新创想:2026年2月10日,Anker安克在欧洲市场正式发售soundcore Nebula X1 Pro 4K投影仪 这款投影仪采用推车式设计,整机重量为32.8千克,配备滚轮与提手,便于用户在不同场景下移动使用 其搭载三重激光光源,亮度高达3500流明(ANSI),能够满足多种照明环境下的投影需求 支持最大300英寸投射,投射比范围为0.9–1.5:...
18:00
微新创想:2026年2月10日,联发科技发布2026年1月营收报告。当月合并营收为469.77亿新台币(约合103.77亿元人民币),同比下滑8.15%,环比下滑8.37%。 微新创想:尽管营收出现下滑,联发科技仍表示正在加速推进数据中心ASIC业务的发展。公司指出,这一业务领域是其未来增长的重要方向,预计在2028年起,下一代产品将开始产生收入。 微新创想...
18:00
微新创想:2026年2月,杭州科技企业安晴人工智能完成天使轮融资,投资方为浙商创投。公司专注于人工智能技术开发及医疗科技融合应用,致力于构建‘AI+医疗’技术生态。本轮融资将用于加速核心算法研发、医疗合规认证及临床场景落地。公司注册地为浙江杭州,团队由AI与医学交叉领域资深工程师及临床专家组成。此次融资标志着其技术产业化进程进入新阶段。
18:00
微新创想:2025年第四季度,中芯国际实现营收178.13亿元,同比增长11.9%。归母净利润达到12.23亿元,同比增长23.2%。营业利润为21.14亿元,但与去年同期相比下降了23.0%。毛利率维持在17.4%的水平。 按国际财务报告准则,当季销售收入为24.89亿美元,环比增长4.5%。产能利用率保持在95.7%。全年来看,中芯国际2025年总营收为...
18:00
微新创想:2026年2月,智蜂医药宣布完成A+轮融资,由普华资本投资。此次融资标志着公司在医药科技领域迈出了重要的一步,进一步巩固了其在行业内的领先地位。 该公司以医药科技为核心,专注于医学研究与生物化工技术的研发,致力于推动科研成果向实际应用的转化。凭借强大的技术实力和创新能力,智蜂医药在多个领域取得了显著进展,并成功持有医疗器械销售及进出口资质,为其业务...
18:00
微新创想:2026年2月9日,蔚来召开全员会议,创始人李斌宣布力争2026年实现Non-GAAP口径全年盈利。此前公司预告2025年四季度Non-GAAP经营利润为7亿至12亿元,显示出公司在财务表现上的显著改善。 李斌指出,2025年团队完成关键突破,为公司未来的增长奠定了坚实基础。这一阶段的成绩不仅体现在业绩数据上,更反映在产品创新、市场拓展以及用户体验...
18:00
微新创想:2026年2月10日 加拿大布鲁克菲尔德资产管理公司正与美国黑石集团就收购其西班牙房地产子公司Fidere展开谈判 交易估值约10亿欧元(约合12亿美元) 地点为西班牙 此举旨在扩大布鲁克菲尔德在欧洲核心市场的不动产布局 增强其在南欧租赁住宅及物流资产领域的组合实力 若达成 该交易将成为2026年西班牙房地产领域迄今规模最大的并购案之一