
全球多模态大模型竞争格局迎来全新洗牌。权威评测平台SuperCLUE-VLM近日发布了2025年12月多模态视觉语言模型综合榜单,谷歌Gemini-3-Pro以83.64分的惊人成绩独占鳌头,充分展现了其在视觉理解与推理领域的绝对领先地位。字节跳动豆包大模型以73.15分的优异表现强势跻身前三甲,商汤科技SenseNova V6.5Pro则以75.35分的成绩位列第二,国产大模型整体表现令人瞩目,彰显了中国AI在多模态赛道上的快速崛起能力。
SuperCLUE-VLM从三大核心维度全面评估模型的视觉理解能力:基础认知、视觉推理和视觉应用。基础认知主要考察模型识别图像中的物体、文字、场景等基本元素的能力;视觉推理则测试模型理解图像逻辑、因果关系与隐含信息的深度;视觉应用则衡量模型完成图文生成、跨模态问答、工具调用等实际任务的效能。
Gemini-3-Pro在所有评测维度中均表现卓越,全面碾压竞争对手:基础认知得分高达89.01分,视觉推理能力达到82.82分,视觉应用能力亦为79.09分。其综合表现远超其他竞品,进一步巩固了谷歌在多模态领域的技术霸主地位。国产阵营同样表现抢眼,商汤SenseNova V6.5Pro以75.35分的成绩稳居第二,展现出均衡的推理与应用能力;字节跳动豆包大模型以73.15分位列第三,基础认知得分高达82.70,甚至超越部分国际模型,仅在视觉推理环节略有不足;百度ERNIE-5.0-Preview与阿里Qwen3-VL紧随其后,均进入前五。特别值得一提的是,Qwen3-VL成为榜单中首个总分突破70分的开源多模态模型,为全球开发者提供了高性能、可商用的开放基座。

在国际巨头中,Anthropic的Claude-opus-4-5以71.44分位居中上游,延续了其在语言理解方面的优势;而OpenAI的GPT-5.2(高配置版本)仅获得69.16分,排名相对靠后,引发了业界对其多模态能力优化方向的广泛讨论。
AIbase观察指出,SuperCLUE-VLM榜单不仅是一份技术排名,更折射出行业发展趋势:开源模型正强势崛起,Qwen3-VL的成功证明开源路线同样可以实现高性能,有力推动技术民主化进程;国产模型更加聚焦场景落地,豆包、商汤等模型在基础认知上表现优异,高度契合中文互联网图文理解、短视频分析等高频需求;视觉推理能力仍是行业瓶颈,多数模型在复杂逻辑、因果推断等高阶任务上仍有明显差距,这也是Gemini持续领先的关键因素。随着多模态能力成为AI Agent、智能座舱、AR/VR等下一代应用的核心支撑,这场“看图说话”的竞赛,正决定谁将真正“看见”并理解世界。而中国大模型,已在通往全球第一梯队的道路上加速奔跑。
