Meta音频AI三件套开源：文本生成音乐音效高保真压缩音频

2023-08-06 09:03:42 互联网 423 次阅读

Meta近期推出了一项令人瞩目的音频AI技术大礼包——AudioCraft，涵盖文本生成音乐、音效、音频压缩及编辑等全方位功能。这一系列开源模型不仅功能全面，而且全部免费使用，为音频创作领域带来了革命性变革。无论是生成一段流行舞曲（提示词：流行舞曲，旋律朗朗上口，热带打击乐和欢快的节奏，量子位，30秒），还是创作一段风吹口哨的音效（提示词：吹着风吹口哨，量子位，5秒），只需简单一句文本提示，即可轻松实现。

Meta特别强调，所有AI模型的训练数据均来自授权渠道或公开资源，确保了技术的合规性和安全性。这一举措不仅赢得了用户的好评，也引发了行业对AI数据伦理的深入思考。有网友惊叹道：“这太疯狂了，刚刚试了一下，生成的声音效果真不错！”而另一些网友则幽默地调侃，Meta此举意在与OpenAI划清界限，彰显其对数据合规的坚定立场。

AudioCraft究竟包含哪些强大功能？实际生成效果如何？让我们深入了解一下这一音频AI三件套。AudioCraft是一个开源音频AI库，目前包含MusicGen、AudioGen和EnCodec三个核心工具。Meta为了发布AudioCraft，还特意更新了EnCodec模型，提升了输出质量，使其更加出色。

MusicGen：基于文本输入生成音乐。该模型使用Meta拥有和授权的音乐数据进行训练，包括20000小时的音乐素材，涵盖10000条内部搜集的高质量音轨，以及ShutterStock和Pond5素材库中的大量数据。这些音乐数据在32kHz下重新采样，并配有流派、BPM等详细信息，确保生成音乐的多样性和高质量。

AudioGen：基于文本输入生成音效。该模型基于10个公开音效数据集进行训练，包括狗吠、汽车鸣喇叭、木地板脚步声等各种音效，为用户提供了丰富的音效选择。

EnCodec：音频压缩工具。该模型能够以极低的音损保持音频的高质量，压缩效果比MP3格式还要小10倍，为音频存储和传输提供了极大的便利。

这三个模型均基于PyTorch框架开发，用户可以直接上手试玩。MusicGen还提供了Demo试玩功能，让用户能够直观体验其强大功能。GitHub项目中也包含了MusicGen、AudioGen和EnCodec的论文细节，方便用户深入了解其技术原理。

然而，AudioCraft的发布也引发了一些争议。有网友认为，音频生成就变得更加大众化，所有人都可以轻松上手尝试；但也有网友担心，这可能导致人类连音频的真假都难以区分，10年后或许连过去的声音、图片、视频都无法分辨。尽管存在争议，AudioCraft无疑为音频创作领域带来了新的可能性。

One More Thing：最近，音频生成AI技术发展迅速，就连效果都卷起来了。一个名为AudioLDM2的模型，虽然论文和代码还在准备中，但刚放出demo就已经在网上传开了。作者Haohe Liu表示，该模型在生成音效、音乐和可理解语音三个领域中均达到了SOTA水平。从实际生成效果来看，确实不错，感兴趣的小伙伴们，可以蹲一波后续了~

MusicGEN试玩地址：https://huggingface.co/spaces/facebook/MusicGen

参考链接：
[1]https://ai.meta.com/blog/audiocraft-musicgen-audiogen-encodec-generative-ai-audio/
[2]https://github.com/facebookresearch/audiocraft
[3]https://twitter.com/LiuHaohe/status/1686782804518973440
[4]https://news.ycombinator.com/item?id=36972347