微新创想:2026年2月11日,蚂蚁集团正式开源全模态大模型Ming-Flash-Omni 2.0
该模型是业界首个支持语音、环境音效与音乐同轨生成的全场景音频统一模型
支持自然语言精细调控音色、语速、情绪等参数
推理帧率达3.1Hz 可实现分钟级长音频实时高保真生成
基于Ling-2.0 MoE架构(100B-A6B) 其在视觉理解、音频生成与图像编辑等多任务上达开源领先水平
模型权重与推理代码已上线Hugging Face及蚂蚁百灵Ling Studio平台
微新创想:2026年2月11日,蚂蚁集团正式开源全模态大模型Ming-Flash-Omni 2.0
该模型是业界首个支持语音、环境音效与音乐同轨生成的全场景音频统一模型
支持自然语言精细调控音色、语速、情绪等参数
推理帧率达3.1Hz 可实现分钟级长音频实时高保真生成
基于Ling-2.0 MoE架构(100B-A6B) 其在视觉理解、音频生成与图像编辑等多任务上达开源领先水平
模型权重与推理代码已上线Hugging Face及蚂蚁百灵Ling Studio平台