Stability AI 近期震撼发布其最新音频生成模型——Stable Audio2.5,为专业音效制作领域带来革命性突破。这款创新模型专为创意团队量身打造,旨在大幅提升音频内容创作效率,满足市场对高质量、定制化音频作品日益增长的需求。Stable Audio2.5 最引人注目的特性在于其卓越的生成能力,能够创作结构完整的多段音乐作品,包括富有感染力的引子、层次丰富的主体发展和令人回味的尾声。Stability AI 强调,新模型在理解情感指令方面实现了质的飞跃,无论是”振奋人心”这类情绪化表达,还是”丰富的合成器声”等风格化提示,都能精准把握并转化为音频语言。
用户只需短短几秒钟,即可生成最长三分钟的音乐曲目。在配备Nvidia H100 GPU的高性能计算环境下,处理时间更是能压缩至令人惊叹的低于两秒。这款新模型的速度突破,主要归功于Stability AI 研究团队自主研发的后期训练方法——对抗相对-对比(Adversarial Relativistic-Contrastive,简称ARC)技术。这一创新技术不仅提升了生成效率,更确保了音频质量的卓越性。值得一提的是,Stability AI 今年五月已推出适用于智能手机的轻量化版本Stable Audio Open Small,同样采用ARC技术,可在移动设备上快速生成长达11秒的立体声音频,仅需七秒钟即可完成创作。
在功能层面,Stable Audio2.5 的核心升级聚焦于音频修补(audio inpainting)功能。用户可以自由上传个人音频文件,选择任意起点,让AI智能延续并完善后续内容,无论是完成现有录音的缺失部分,还是创意性地扩展音频作品,都能轻松实现。此外,通过文字提示生成音乐的功能也得到进一步优化,为用户提供了更加灵活的创作途径。需要特别说明的是,为确保版权合规,用户上传的文件必须为无版权内容。Stability AI 通过先进的识别系统进行严格审核,同时该模型始终基于已授权的商业安全数据集进行训练,为合作伙伴提供可靠的技术支持。
Stability AI 展望该技术将在广告、零售、品牌音效等领域发挥巨大潜力。通过与WPP旗下音效品牌代理机构Amp的深度合作,Stability AI 正为大型客户提供高度一致的音频识别服务。其音频团队还能根据客户独特的音效库需求,定制专属的音频标识,打造独特的品牌声音。Stable Audio2.5 将通过WPP Open平台向全球客户开放,进一步拓展音频业务版图。
自2024年4月Stable Audio2问世以来,Stability AI 积极构建音频领域的合作伙伴网络,着力增强企业财务实力。今年3月,WPP集团已对Stability AI进行战略投资,而Meta也在音频研究领域加速布局。这一系列发展标志着音频生成技术正迎来前所未有的创新浪潮。
划重点:🎵 新模型Stable Audio2.5支持生成结构复杂的多段音乐作品,可在数秒内完成最长三分钟的音轨创作。🖌️ 首次引入音频修补功能,用户可上传音频文件,让AI智能完成或扩展录音内容。🤝 Stability AI 与WPP等大型机构合作,致力于为全球客户提供一致的品牌音频识别服务。