通义实验室发布PrismAudio实现视频环境音精准生成

2026-03-24 15:54:02 AI动态 2 次阅读

微新创想：在 AI 视频生成大火的当下，“有画无声”或“声不对位”一直是影响沉浸感的最后一道屏障。针对这一痛点，阿里通义实验室近期推出了全新的视频生成音频（Video-to-Audio）框架——PrismAudio。该研究已被顶级 AI 会议 ICLR2026收录，核心旨在为视频自动配上严丝合缝的环境音效。

微新创想：传统的配音模型通常是“直觉式”生成，容易出现马蹄落在地上却发出鸟叫，或者声音比画面慢半拍的尴尬情况。PrismAudio 的突破在于它学会了“先写笔记，再发声”。这种全新的生成逻辑，让音频内容更加贴合视频画面，极大提升了整体的沉浸体验。

微新创想：分解式思维链：模型在生成声音前，会先分析视频内容。画面里有什么？声音何时开始？音质是清脆还是低沉？声源在左还是在右？通过逐帧解析视频信息，PrismAudio 能够精准捕捉场景细节，为后续音频生成提供坚实基础。

微新创想：四重老师打分：为了确保质量，研发团队引入了强化学习，由四位“虚拟老师”从语义一致性、时序同步性、美学质量和空间准确性四个维度同时打分。这种多维度的反馈机制，解决了以往模型“顾此失彼”的顽疾，使生成的音频更加自然流畅。

微新创想：轻量且高效：9秒视频配音仅需0.6秒。除了听得准，PrismAudio 还跑得极快。得益于自研的 Fast-GRPO 高效训练算法，该模型在性能跨越式提升的同时，保持了极高的运行效率。

微新创想：小身材大能量：模型参数仅为5.18亿，远低于动辄数十亿参数的同类模型。这使得 PrismAudio 在实际应用中更加灵活，能够快速部署并适应多种场景需求。

微新创想：极速响应：生成一段9秒的高质量音频仅需 0.63秒，几乎做到了“即传即得”。如此高效的处理速度，为实时视频内容生成提供了强有力的技术支持。

微新创想：行业观察：环境音效的“真”时代。PrismAudio 的出现，不仅为影视后期、短视频创作提供了强大的自动化工具，也为多目标生成任务提供了新的思路。当 AI 能够精准权衡声音的质感与空间感，未来的视频创作将真正实现“所见即所闻”。

2026年03月24日

16:37

通义实验室发布PrismAudio实现视频环境音精准生成

最新快讯

2026年03月24日

西十高铁湖北段今日启动联调联试助力区域协同发展

格里·麦戈文卸任捷豹路虎设计总监开启个人咨询新篇章

iQOO Z11x发布日期曝光天玑7400+7200mAh电池+IP68防水

周大福因金价下跌推迟一口价产品调价计划

博瑞医药BGM0504片减重Ⅰ期临床试验结果积极公布

北京君正车规工业存储供应紧张应对国产替代需求增长

Tempest Therapeutics完成600万美元融资加速肿瘤免疫疗法研发与转化

智胜达完成800万元天使轮融资加强跨境身份规划与全球服务网络

微软Exchange Server支持延长至2035年企业邮件系统自主可控需求获回应

俄罗斯成功发射首批16颗低轨卫星打造全球互联网覆盖系统

创析智能获1000万天使轮投资加速AI教育系统全国布局

天文摄影突破光污染限制拍摄15000光年外雷神头盔星云