Stability AI发布Stable Audio2.5 专业音频生成技术再升级

2025-09-11 09:55:54 AI动态 55 次阅读

Stability AI 近期震撼发布其最新音频生成模型——Stable Audio2.5，为专业音效制作领域带来革命性突破。这款创新模型专为创意团队量身打造，旨在大幅提升音频内容创作效率，满足市场对高质量、定制化音频作品日益增长的需求。Stable Audio2.5 最引人注目的特性在于其卓越的生成能力，能够创作结构完整的多段音乐作品，包括富有感染力的引子、层次丰富的主体发展和令人回味的尾声。Stability AI 强调，新模型在理解情感指令方面实现了质的飞跃，无论是”振奋人心”这类情绪化表达，还是”丰富的合成器声”等风格化提示，都能精准把握并转化为音频语言。

用户只需短短几秒钟，即可生成最长三分钟的音乐曲目。在配备Nvidia H100 GPU的高性能计算环境下，处理时间更是能压缩至令人惊叹的低于两秒。这款新模型的速度突破，主要归功于Stability AI 研究团队自主研发的后期训练方法——对抗相对-对比（Adversarial Relativistic-Contrastive，简称ARC）技术。这一创新技术不仅提升了生成效率，更确保了音频质量的卓越性。值得一提的是，Stability AI 今年五月已推出适用于智能手机的轻量化版本Stable Audio Open Small，同样采用ARC技术，可在移动设备上快速生成长达11秒的立体声音频，仅需七秒钟即可完成创作。

在功能层面，Stable Audio2.5 的核心升级聚焦于音频修补（audio inpainting）功能。用户可以自由上传个人音频文件，选择任意起点，让AI智能延续并完善后续内容，无论是完成现有录音的缺失部分，还是创意性地扩展音频作品，都能轻松实现。此外，通过文字提示生成音乐的功能也得到进一步优化，为用户提供了更加灵活的创作途径。需要特别说明的是，为确保版权合规，用户上传的文件必须为无版权内容。Stability AI 通过先进的识别系统进行严格审核，同时该模型始终基于已授权的商业安全数据集进行训练，为合作伙伴提供可靠的技术支持。

Stability AI 展望该技术将在广告、零售、品牌音效等领域发挥巨大潜力。通过与WPP旗下音效品牌代理机构Amp的深度合作，Stability AI 正为大型客户提供高度一致的音频识别服务。其音频团队还能根据客户独特的音效库需求，定制专属的音频标识，打造独特的品牌声音。Stable Audio2.5 将通过WPP Open平台向全球客户开放，进一步拓展音频业务版图。