微新创想:2026年3月24日,阿里巴巴通义实验室正式发布PrismAudio——首个融合强化学习与思维链的视频生成环境音框架。该框架专注于马蹄声、风雨声等画面同步音效的合成,不涉及人物配音。这一突破性技术通过‘先写笔记、再发声’的分解式推理流程,实现了音效生成的智能化与高效化。
微新创想:PrismAudio的创新之处在于引入了语义、时序、美学、空间四位‘老师’协同打分优化机制。这种多维度评估体系确保了生成音效在内容准确性、时间同步性、艺术表现力以及空间感知方面均达到较高水准。通过这一机制,模型能够更精准地理解视频内容并生成符合场景的环境音。
微新创想:为了提升训练效率,PrismAudio采用了高效的算法Fast-GRPO。相比传统方法需要600步才能达到的性能,该框架仅需200步即可实现相近效果。这不仅大幅缩短了训练时间,也降低了计算资源的消耗,为实际应用提供了更大的可行性。
微新创想:在模型参数方面,PrismAudio保持了较低的规模,仅有5.18亿参数。这一设计使得模型在保持高性能的同时,也具备更强的部署灵活性。此外,音频生成速度也得到了显著提升,9秒的音频生成仅需0.63秒,展现出卓越的实时处理能力。
微新创想:PrismAudio的研究成果已获得ICLR 2026会议的录用,标志着其在学术界和工业界均受到高度认可。随着代码即将开源,这一技术有望被更广泛地应用于影视制作、游戏开发、虚拟现实等多个领域,推动环境音生成技术的发展与普及。
