位于伦敦的初创公司Stability AI近日重磅推出了一款名为Stable Audio的人工智能音乐生成工具,该产品能够从简单的文本输入中创造出高度定制化的音乐曲目和音效。Stable Audio的核心优势在于其强大的AI模型,能够以多种音乐流派进行创作,并通过用户友好的浏览器界面为创意专业人士提供便捷的音乐生成服务。这一创新工具特别适合需要快速获取高质量背景音乐的影视制作、游戏开发等领域从业者使用。
Stable Audio采用先进的扩散式AI技术,仅需几秒钟即可根据用户输入的文本描述生成定制音频文件。用户可以通过指定音乐风格、乐器类型、音调特征等参数,系统将自动创作出与之匹配的音乐作品。例如,当输入”后摇滚、吉他、鼓套、低音、弦乐、欢快、振奋、情绪化、流畅、原始、史诗、多愁善感、125BPM”等关键词时,系统会生成一首具有强烈氛围感的摇滚乐曲,节奏为125BPM。Stability AI表示,该工具能够胜任多种音乐风格的创作,包括氛围音乐、电子舞曲等。
与市面上其他AI音乐生成器不同,Stable Audio最突出的特点在于其能够生成长达90秒的音乐作品,且音频质量达到44.1kHz的专业水准。生成的音乐听起来极为真实,几乎难以分辨是否由人类创作。据Stability AI透露,借助Nvidia A100 GPU,95秒的音频内容可在不到一秒内完成生成,这一技术潜力巨大,有望在影视制作、游戏开发等领域发挥重要作用。
该工具通过网络浏览器即可访问,即使对人工智能技术不太了解的用户也能轻松上手。为了实现如此高质量的音乐生成效果,Stability AI与AudioSparx合作,利用其提供的音乐库进行模型训练。这个音乐库包含了约80万首歌曲、音效和乐器片段,AudioSparx承诺将音乐库产生的收入按比例分享给Stability AI,而参与训练的歌曲创作者也能通过AudioSparx分享Stable Audio的利润。据称,在训练前,所有创作者都已被询问是否同意其作品用于AI训练。
这一合作模式或是对Stability AI在Stable Diffusion项目培训素材版权问题上遭遇的争议做出的回应。Stability AI强调,用户可以免费将使用Stable Audio创作的音轨用于个人用途,而商业用途则需要付费订阅。该公司主要面向电影制片人、游戏开发者等创意专业人士,为他们提供快速获取定制背景音乐的解决方案。
Stability AI还计划发布一个基于不同数据集训练的开源音乐模型。虽然Stable Audio本身并非开源项目,但公司表示很快会推出基于其他数据集训练的开源音乐模型。Stable Audio的技术基础是2022年由Harmonai发布并得到Stability AI支持的Dance Diffusion模型,但Stable Audio是由Stability AI音频部门从零开始开发的全新模型。虽然使用扩散模型生成音乐并非全新概念,但Stable Audio的独特之处在于其能够生成不同长度的音乐作品,这是其训练过程中特别考虑到的设计要点。
Stable Audio的底层技术由潜在扩散模型构成,包含变分自动编码器(VAE)、文本编码器和基于U-net的扩散模型。VAE将立体声音频压缩为有损、抗噪声且可逆的潜在编码,从而实现更快的生成和训练速度。新训练的CLAP模型用于处理文本提示,而定时嵌入则在训练期间计算,用于控制输出音频的长度。Stable Audio的扩散模型基于Moûsai模型的9.07亿参数U-net架构。
用户可以通过专门为Stable Audio设计的网络界面使用该工具。个人用户每月可免费使用20首时长不超过45秒的歌曲,而商业用户只需支付11.99美元/月,即可获得500首时长可达90秒的歌曲,并获得商业使用许可。然而,由于缺乏内容过滤器,该工具存在被用于伪造知名艺术家歌曲的风险。尽管唱片公司已成功应对类似的人工智能创作挑战,但相关法律问题仍存在争议。
在接受Techcrunch采访时,Stability AI强调其致力于负责任地使用这项技术。虽然AudioSparx的数据库不包含流行歌曲,但其中许多歌曲仍以知名艺术家的风格进行标记。与谷歌的MusicLM不同,目前尚未屏蔽著名艺术家的名称。Stable Audio能否为Stability AI的商业模式带来盈利还有待观察,毕竟该公司至今仍处于亏损状态。但无论如何,人工智能创作出令人惊叹的音乐质量,已经让整个行业刮目相看。