阿里通义实验室发布PrismAudio视频生成音效框架创新突破

2026-03-24 16:06:21 快讯 2 次阅读

微新创想：2026年3月24日，阿里巴巴通义实验室正式发布PrismAudio——首个融合强化学习与思维链的视频生成环境音框架。该框架专注于马蹄声、风雨声等画面同步音效的合成，不涉及人物配音。这一突破性技术通过‘先写笔记、再发声’的分解式推理流程，实现了音效生成的智能化与高效化。

微新创想：PrismAudio的创新之处在于引入了语义、时序、美学、空间四位‘老师’协同打分优化机制。这种多维度评估体系确保了生成音效在内容准确性、时间同步性、艺术表现力以及空间感知方面均达到较高水准。通过这一机制，模型能够更精准地理解视频内容并生成符合场景的环境音。

微新创想：为了提升训练效率，PrismAudio采用了高效的算法Fast-GRPO。相比传统方法需要600步才能达到的性能，该框架仅需200步即可实现相近效果。这不仅大幅缩短了训练时间，也降低了计算资源的消耗，为实际应用提供了更大的可行性。

微新创想：在模型参数方面，PrismAudio保持了较低的规模，仅有5.18亿参数。这一设计使得模型在保持高性能的同时，也具备更强的部署灵活性。此外，音频生成速度也得到了显著提升，9秒的音频生成仅需0.63秒，展现出卓越的实时处理能力。

微新创想：PrismAudio的研究成果已获得ICLR 2026会议的录用，标志着其在学术界和工业界均受到高度认可。随着代码即将开源，这一技术有望被更广泛地应用于影视制作、游戏开发、虚拟现实等多个领域，推动环境音生成技术的发展与普及。

2026年03月24日

17:09