蚂蚁开源Ming-Flash-Omni 2.0性能对标Gemini 2.5 Pro全模态大模型

微新创想
今日,蚂蚁集团正式开源发布全模态大模型 Ming-Flash-Omni 2.0。该模型在多项公开基准测试中展现出卓越的性能,尤其在视觉语言理解、语音可控生成、图像生成与编辑等关键领域表现突出,部分指标甚至超越了 Gemini 2.5 Pro,成为当前开源全模态大模型中的性能新标杆。Ming-Flash-Omni 2.0 作为业界首个全场景音频统一生成模型,能够在一个音轨中同时生成语音、环境音效与背景音乐,极大提升了音频生成的灵活性和实用性。

用户只需通过自然语言下达指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。这种高度定制化的音频生成能力,使得模型在实际应用中更具优势。此外,Ming-Flash-Omni 2.0 在推理阶段实现了 3.1Hz 的极低推理帧率,支持分钟级长音频的实时高保真生成,不仅提升了处理效率,也在成本控制方面保持了业界领先水平。

蚂蚁集团在全模态大模型领域已深耕多年,Ming-Omni 系列经历了多次迭代,逐步完善了多模态处理能力。此次开源 Ming-Flash-Omni 2.0,标志着蚂蚁集团将核心能力以“可复用底座”的形式对外释放,为开发者提供统一的能力入口,助力构建端到端的多模态应用。这一举措不仅推动了技术共享,也为行业创新提供了坚实的基础。

蚂蚁开源Ming-Flash-Omni 2.0性能对标Gemini 2.5 Pro全模态大模型插图1

Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)进行训练,围绕“看得更准、听得更细、生成更稳”三大目标进行全面优化。在视觉处理方面,模型融合了亿级细粒度数据,并采用难例训练策略,显著提升了对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力。这使得模型在处理高精度视觉任务时更加得心应手。

在音频处理方面,Ming-Flash-Omni 2.0 实现了语音、音效与音乐的同轨生成,支持用户通过自然语言对音色、语速、情绪等参数进行精细控制。同时,模型还具备零样本音色克隆与定制能力,能够快速适应不同声音需求,满足多样化的应用场景。这种强大的音频生成与控制能力,为内容创作和交互体验带来了全新可能。

在图像生成与编辑领域,Ming-Flash-Omni 2.0 通过增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能。即使在动态场景中,模型也能保持画面的连贯性与细节的真实性,为图像处理提供了更高的精度与效率。这些优化使得模型在实际应用中更加稳定可靠,能够应对各种复杂的图像生成需求。

目前,Ming-Flash-Omni 2.0 的模型权重与推理代码已在多个开源社区发布,用户可以自由下载和使用。同时,蚂蚁百灵官方平台 Ling Studio 也提供了在线体验与调用服务,方便开发者快速上手并探索模型的潜力。这一开源行动不仅促进了技术的普及,也为行业生态的构建注入了新的活力。

最新快讯

2026年02月11日

17:33
微新创想:斯柯达在欧洲预览全新纯电动城市跨界SUV Epiq 斯柯达近日在欧洲市场发布了全新纯电动城市跨界SUV Epiq的预告图,引发了广泛关注。这款车型作为斯柯达品牌推出的首款纯电车型,标志着其正式进军新能源市场。Epiq预计将在2026年上半年正式上市,成为斯柯达旗下最具性价比的纯电产品。 Epiq基于大众MEB+平台打造,拥有良好的兼容性和扩展性。该...
17:33
微新创想:2026年2月11日,区块链与现实世界资产(RWA)融合项目RubberVerseX(RVX)宣布完成200万美元战略融资 本轮融资由M2M Capital、HVS Ventures及BD Ventures联合投资 RVX致力于构建数字橡胶经济 通过区块链技术将天然橡胶种植 加工 贸易等实体产业链关键环节上链 提升透明度与流动性 此次融资将用于智能...
17:33
微新创想:2026年2月11日 日本开发商Kairosoft宣布经典模拟经营游戏《游戏发展国》在苹果App Store和谷歌Play商店开启限时免费领取活动 此次限时免费活动为全球玩家提供了难得的机会 使得这款曾经风靡一时的游戏再次受到关注 《游戏发展国》原价4.49美元 约合31.1元人民币 自2010年10月9日首次登陆移动平台以来 一直深受玩家喜爱 该...
17:33
微新创想:2026年1月,中国电解铝行业的平均含税完全成本环比下降0.6%,同比降幅达到19.5%。这一显著的成本下降主要得益于氧化铝和预焙阳极等主要原材料价格的回落。与此同时,SMM A00铝现货月均价为23641元/吨,环比上涨了1840元/吨。成本的降低与价格的上涨形成双重利好,使得行业平均利润攀升至7500元/吨。根据当月的现货均价计算,全国所有在产...
17:33
微新创想:2月11日16时40分,新疆巴音郭楞州尉犁县发生3.9级地震,震中位于北纬40.86度、东经84.07度。此次地震震源深度为26千米,属于浅源地震。根据中国地震台网的正式测定,目前尚未收到人员伤亡和财产损失的报告。地震发生后,当地相关部门迅速启动应急响应机制,组织人员对震情进行详细核查,并对可能存在的风险点展开全面排查。相关部门还加强了对群众的安抚...
17:32
微新创想:2026年2月11日,蔚蓝锂芯(002245.SZ)董事会审议通过终止参与格林美印尼项目增资扩股事项。公司原计划于2025年10月出资2000万美元,认购目标公司5.95%股权。这一决定是基于公司整体战略调整的考量。 微新创想:因格林美调整战略规划,经协商一致,各方签署终止契约书。此次终止并非由于任何一方违约,而是出于对市场环境和企业发展方向的重新...
17:32
微新创想:2026年2月11日 沃森生物公告拟联合国投创益、玉溪国有资本及央企乡村产业基金 共同设立云南创沃生物产业投资基金 基金总规模10亿元 沃森生物以自有资金认缴4.5亿元 作为有限合伙人 该基金将聚焦合成生物制造领域 重点布局合成生物学、生命大健康、生物农业、生物能源、生物材料及技术平台型企业 此举旨在强化公司在前沿生物技术领域的产业协同与战略卡位
17:32
微新创想:2026年2月11日 欧洲汽车电池公司(ACC)宣布搁置在意大利和德国建设电池超级工厂的计划 欧洲汽车电池公司(ACC)由Stellantis、梅赛德斯-奔驰与道达尔能源共同成立 旨在增强欧洲电动汽车电池供应链的自主性 此次决定源于Stellantis近期因电动车市场需求疲软 计提了220亿欧元的资产减值 并全面缩减了电动化投资 ACC CEO安东...
17:32
微新创想:2026年2月11日,Meta向Quest 3用户推送v85公共测试频道更新,新增了“Surface Keyboard”桌面虚拟键盘功能。这一创新功能允许用户在任意平整的表面上投射出可交互的虚拟键盘和触控板,从而实现更自然的输入体验。 微新创想:该虚拟键盘通过头显的摄像头技术,将物理表面转化为数字操作界面。用户可以在桌面上自由使用,无需额外设备即可...
17:32
微新创想:全民AI运动还在进行时。腾讯元宝的10亿红包雨进程过半,阿里千问免费请客计划也在继续,大家还在用支付宝扫福集福。今年五福变六福,蚂蚁AI健康应用阿福为大家新增健康福以及红包。除此之外,字节、百度等互联网公司也在花式参与其中。种种迹象表明,今年春节的AI含量绝对爆表,也是大厂争夺流量最为紧张的时刻。而从各家分解动作中,我们发现两个趋势:ChatGPT...
17:32
微新创想:2026年2月10日,QQ迎来27岁生日。这个几乎和中国互联网同龄的产品,从那只“嘀嘀嘀”叫的企鹅开始,一路见证了国内网民从拨号上网到5G时代的全部变迁。在很多人眼里,QQ是“青春纪念册”般的存在。70后在这里学会打字,80后在这里玩“偷菜”游戏、养宠物,90后在这里挂太阳升等级,00后、10后则在这里畅所欲言。 如今,当人们谈论社交产品时,往往第...
17:32
微新创想:据QuestMobile最新数据显示,2月7日,大模型应用千问的日活跃用户数(DAU)已正式突破7352万。这一数字不仅标志着千问在用户规模上的显著增长,也反映了其在人工智能领域日益增强的影响力。 在市场排名方面,千问App近期展现出极高的用户增长势头。随着人工智能技术的不断进步,越来越多的用户开始关注并尝试使用这类创新应用。千问凭借其强大的模型能...