Meta SAM Audio统一多模态音频分离模型发布

2025-12-17 23:15:29 快讯 4 次阅读

2025年12月17日，科技巨头Meta正式发布了革命性的多模态音频分离模型SAM Audio，标志着音频处理技术迈入全新纪元。这款创新模型能够通过文本描述、视觉提示或精确的时间段标记，从复杂嘈杂的音频环境中精准分离出用户所需的声音片段。这一突破性成果基于Meta自主研发的感知编码器视听（PE-AV）技术，该技术融合了深度学习与人类听觉感知机制，实现了前所未有的音频解析能力。

SAM Audio的核心优势在于其多模态交互方式。用户只需简单点击视频中的特定物体，例如吉他，模型便能即时分离出其独特的演奏声；或者输入如”提取播客中主持人对话”的文本指令，即可过滤掉背景噪音；更可以通过时间轴标记，从连续音频中截取任意时间段的音频内容。这种灵活的操作方式极大地降低了专业音频编辑的技术门槛，让普通用户也能轻松实现复杂的音频分离任务。

为了验证模型的性能并推动技术发展，Meta同步发布了SAM Audio-Bench评估基准和SAM Audio Judge自动评测模型。这些工具为音频分离技术的量化评估提供了标准化平台，有助于研究人员比较不同模型的性能优劣。更令人惊喜的是，Meta已将SAM Audio模型代码及完整技术细节完全开源，这一慷慨举措将加速整个音频处理领域的创新进程，预计将催生更多基于该技术的应用场景。

随着人工智能技术的不断进步，多模态音频分离正逐渐从实验室走向实际应用。从影视后期制作到音乐创作，从智能家居到无障碍交流，SAM Audio所展现的技术潜力将深刻改变我们与声音互动的方式。这一突破不仅体现了Meta在人工智能领域的领先地位，更为整个行业树立了新的技术标杆，预示着智能音频处理新时代的来临。

2025年12月18日

02:47

Meta SAM Audio统一多模态音频分离模型发布

最新快讯

2025年12月18日

网飞收购巴尔斯图尔播客版权开拓视频内容新领域

YouTube2029年起独家直播奥斯卡颁奖典礼

Atlas Cloud AI与GreenCloud联手投60亿建北美绿色AI算力中心

铭普光磁发布400V-800V高压平台AI电源磁方案

谷歌Gemini3 Flash新模型发布性能效率双提升

Mythic获1.25亿美元融资剑指英伟达AI芯片市场

海南自贸港今日起开通二线报关业务

星辰科技2025年斩获多项航天订单火箭发射装备市场表现亮眼

2026世界杯冠军奖金5000万美元国际足联总奖金达7.27亿美元

宁德时代全球首条人形机器人电池线投运引领智能制造新纪元

Nebius发布AI云平台3.1版集成Blackwell Ultra加速大规模AI训练

甲骨文密歇根数据中心股权交易进展顺利合作方确认非蓝鸮资本