
微新创想11月26日讯,近日,空间推理基准测试SpatialBench发布了最新一期榜单,引发全球AI领域高度关注。在这场顶尖模型的较量中,阿里云千问平台推出的视觉理解模型Qwen3-VL与Qwen2.5-VL表现惊艳,双双位列榜单前茅,超越了包括Gemini 3、GPT-5.1、Claude Sonnet 4.5在内的国际顶级AI模型。
根据SpatialBench最新榜单数据,Qwen3-VL-235B和Qwen2.5-VL-72B分别以13.5分和12.9分的优异成绩领跑,大幅领先于Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)以及Claude Sonnet 4.5等海外头部模型。这一突破性成绩不仅彰显了阿里云在AI视觉理解领域的领先地位,也标志着中国在大型语言模型技术创新方面取得的新里程碑。
然而,尽管AI大模型在空间推理能力上取得了显著进步,但与人类水平相比仍存在明显差距。人类在空间推理方面的基准线约为80分,能够专业处理电路分析、CAD工程设计和分子生物学等复杂任务。目前,AI大模型尚无法完全自动化完成这些高阶空间推理工作,这表明在具身智能领域,技术突破仍需持续探索。
值得关注的是,Qwen2.5-VL于2024年已实现开源,而Qwen3-VL作为阿里云在2025年推出的新一代视觉理解模型,在视觉感知和多模态推理方面实现了重大技术突破。Qwen3-VL不仅超越了Gemini 2.5-Pro和GPT-5,更具备强大的带图推理能力,可通过调用抠图、搜索等工具完成复杂视觉任务。令人惊叹的是,该模型还能直接基于设计草图或游戏视频进行视觉编程,展现了前所未有的灵活性和创造力。

在3D检测能力方面,Qwen3-VL进行了针对性增强,使其能够更精准地感知空间关系。基于这一模型,机器人可以更准确地判断物体方位、视角变化和遮挡关系,从而实现如远处苹果精准抓取等复杂操作。目前,Qwen3-VL已开源多个版本,包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型,每个版本均提供指令版和推理版,成为企业和开发者最青睐的开源视觉理解模型之一。
此外,Qwen3-VL模型已成功集成到千问APP中,用户可免费体验其强大功能。这一举措不仅降低了AI技术的应用门槛,也为普通用户提供了接触前沿AI技术的机会。
SpatialBench作为近年来兴起的第三方空间推理基准测试榜单,专注于评估多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为衡量具身智能进展的重要标准。该测试不仅考察模型的知识储备,更注重其在二维和三维空间中感知和操控抽象概念的能力,这对于具身智能的实际落地具有关键意义。SpatialBench的持续发展,将持续推动AI领域在空间推理方面的创新突破。
