蚂蚁开源Ming-Flash-Omni 2.0性能对标Gemini 2.5 Pro全模态大模型

2026-02-11 14:14:11 互联网 4 次阅读

微新创想
今日，蚂蚁集团正式开源发布全模态大模型 Ming-Flash-Omni 2.0。该模型在多项公开基准测试中展现出卓越的性能，尤其在视觉语言理解、语音可控生成、图像生成与编辑等关键领域表现突出，部分指标甚至超越了 Gemini 2.5 Pro，成为当前开源全模态大模型中的性能新标杆。Ming-Flash-Omni 2.0 作为业界首个全场景音频统一生成模型，能够在一个音轨中同时生成语音、环境音效与背景音乐，极大提升了音频生成的灵活性和实用性。

用户只需通过自然语言下达指令，即可对音色、语速、语调、音量、情绪与方言等进行精细控制。这种高度定制化的音频生成能力，使得模型在实际应用中更具优势。此外，Ming-Flash-Omni 2.0 在推理阶段实现了 3.1Hz 的极低推理帧率，支持分钟级长音频的实时高保真生成，不仅提升了处理效率，也在成本控制方面保持了业界领先水平。

蚂蚁集团在全模态大模型领域已深耕多年，Ming-Omni 系列经历了多次迭代，逐步完善了多模态处理能力。此次开源 Ming-Flash-Omni 2.0，标志着蚂蚁集团将核心能力以“可复用底座”的形式对外释放，为开发者提供统一的能力入口，助力构建端到端的多模态应用。这一举措不仅推动了技术共享，也为行业创新提供了坚实的基础。

Ming-Flash-Omni 2.0 基于 Ling-2.0 架构（MoE，100B-A6B）进行训练，围绕“看得更准、听得更细、生成更稳”三大目标进行全面优化。在视觉处理方面，模型融合了亿级细粒度数据，并采用难例训练策略，显著提升了对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力。这使得模型在处理高精度视觉任务时更加得心应手。

在音频处理方面，Ming-Flash-Omni 2.0 实现了语音、音效与音乐的同轨生成，支持用户通过自然语言对音色、语速、情绪等参数进行精细控制。同时，模型还具备零样本音色克隆与定制能力，能够快速适应不同声音需求，满足多样化的应用场景。这种强大的音频生成与控制能力，为内容创作和交互体验带来了全新可能。

在图像生成与编辑领域，Ming-Flash-Omni 2.0 通过增强复杂编辑的稳定性，支持光影调整、场景替换、人物姿态优化及一键修图等功能。即使在动态场景中，模型也能保持画面的连贯性与细节的真实性，为图像处理提供了更高的精度与效率。这些优化使得模型在实际应用中更加稳定可靠，能够应对各种复杂的图像生成需求。

目前，Ming-Flash-Omni 2.0 的模型权重与推理代码已在多个开源社区发布，用户可以自由下载和使用。同时，蚂蚁百灵官方平台 Ling Studio 也提供了在线体验与调用服务，方便开发者快速上手并探索模型的潜力。这一开源行动不仅促进了技术的普及，也为行业生态的构建注入了新的活力。

2026年02月11日

17:33

蚂蚁开源Ming-Flash-Omni 2.0性能对标Gemini 2.5 Pro全模态大模型

最新快讯

2026年02月11日

斯柯达发布入门级纯电SUV Epiq 续航430km 2026年上市

RubberVerseX完成200万美元战略融资推动数字橡胶经济建设

《游戏发展国》限时免费登陆iOS与安卓平台

2026年1月电解铝行业利润达7500元/吨成本大幅下降带动行业盈利回升

新疆尉犁县发生3.9级浅源地震震源深度26千米无伤亡报告

蔚蓝锂芯终止参与格林美印尼项目增资扩股计划

沃森生物4.5亿设立合成生物产业基金抢占前沿技术布局

欧洲汽车电池巨头ACC暂停意大利德国超级工厂建设计划

Meta Quest 3新功能上线桌面虚拟键盘Surface Keyboard正式推出

AI健康赛道爆发，蚂蚁阿福以“健康福”引领行业新趋势

QQ27周年焕新升级：经典回归功能迭代满足多元社交需求

千问App日活突破7352万连续6天登顶App Store免费榜