阿里千问登顶SpatialBench空间推理冠军 超越Gemini3GPT5.1

微新创想11月26日讯,近日,空间推理基准测试SpatialBench发布了最新一期榜单,引发全球AI领域高度关注。在这场顶尖模型的较量中,阿里云千问平台推出的视觉理解模型Qwen3-VL与Qwen2.5-VL表现惊艳,双双位列榜单前茅,超越了包括Gemini 3、GPT-5.1、Claude Sonnet 4.5在内的国际顶级AI模型。

根据SpatialBench最新榜单数据,Qwen3-VL-235B和Qwen2.5-VL-72B分别以13.5分和12.9分的优异成绩领跑,大幅领先于Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)以及Claude Sonnet 4.5等海外头部模型。这一突破性成绩不仅彰显了阿里云在AI视觉理解领域的领先地位,也标志着中国在大型语言模型技术创新方面取得的新里程碑。

然而,尽管AI大模型在空间推理能力上取得了显著进步,但与人类水平相比仍存在明显差距。人类在空间推理方面的基准线约为80分,能够专业处理电路分析、CAD工程设计和分子生物学等复杂任务。目前,AI大模型尚无法完全自动化完成这些高阶空间推理工作,这表明在具身智能领域,技术突破仍需持续探索。

值得关注的是,Qwen2.5-VL于2024年已实现开源,而Qwen3-VL作为阿里云在2025年推出的新一代视觉理解模型,在视觉感知和多模态推理方面实现了重大技术突破。Qwen3-VL不仅超越了Gemini 2.5-Pro和GPT-5,更具备强大的带图推理能力,可通过调用抠图、搜索等工具完成复杂视觉任务。令人惊叹的是,该模型还能直接基于设计草图或游戏视频进行视觉编程,展现了前所未有的灵活性和创造力。

阿里千问登顶SpatialBench空间推理冠军 超越Gemini3GPT5.1插图1

在3D检测能力方面,Qwen3-VL进行了针对性增强,使其能够更精准地感知空间关系。基于这一模型,机器人可以更准确地判断物体方位、视角变化和遮挡关系,从而实现如远处苹果精准抓取等复杂操作。目前,Qwen3-VL已开源多个版本,包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型,每个版本均提供指令版和推理版,成为企业和开发者最青睐的开源视觉理解模型之一。

此外,Qwen3-VL模型已成功集成到千问APP中,用户可免费体验其强大功能。这一举措不仅降低了AI技术的应用门槛,也为普通用户提供了接触前沿AI技术的机会。

SpatialBench作为近年来兴起的第三方空间推理基准测试榜单,专注于评估多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为衡量具身智能进展的重要标准。该测试不仅考察模型的知识储备,更注重其在二维和三维空间中感知和操控抽象概念的能力,这对于具身智能的实际落地具有关键意义。SpatialBench的持续发展,将持续推动AI领域在空间推理方面的创新突破。

最新快讯

2025年11月26日

15:42
近日,抖音平台掀起了一股「接力创作」的潮流,成为站内爆款内容的重要形式。这些接力创作不仅作品质量高、讨论热度大,更因其独特的范式迅速吸引更多用户参与UGC共创,展现出强大的传播优势。这种模式蕴含着「击鼓传花」式的集体记忆,易于建立情感连接;参与门槛低,便于大众参与;共创过程激发创作者各展所长,推动内容不断精品化。在平台维度,这也是基于抖音独特性才得以实现的新...
15:42
【AIbase 讯】德国人工智能公司 Black Forest Labs 于今年感恩节期间震撼发布其全新一代图像生成与编辑系统 FLUX.2,这一里程碑式的事件标志着该公司在图像生成技术领域实现了重大突破,致力于为高效的商业级创意工作流程提供强大支持。FLUX.2 系列精心设计了四个不同规格和功能的模型,通过技术创新实现了显著性能提升,包括引入多参考条件输入...
15:42
Black Forest Labs正式发布备受期待的FLUX.2系列模型,一次性推出涵盖pro、flex、dev、klein(即将推出)四档规格的强大工具,并同步开源32B参数的FLUX.2[dev]权重与完整代码,被誉为当前最强开源文生图解决方案,同时支持多图参考与4MP级高精度编辑。 FLUX.2系列的核心升级亮点如下: - **-10图参考**:用...
15:42
最新消息显示,亚马逊公司内部已发布重要备忘录,明确要求工程师在编程工作中优先采用其自主研发的AI工具Kiro,而非第三方AI编程服务。该备忘录在公司官方新闻平台上正式发布,并已获得亚马逊官方发言人确认。文件明确指出,尽管亚马逊仍将维持对现有第三方工具的支持,但将停止扩展对新型外部AI开发服务的支持。这意味着包括OpenAI的Codex、Anthropic的C...
15:41
2025年11月26日,国内领先的金融科技服务商恩耐博正式宣布成功完成天使轮融资,投资方为在业内享有盛誉的甬科天使创投。作为一家专注于AI技术应用的创新企业,恩耐博致力于为企业提供全方位的数字化运营、智能营销以及风险管理解决方案,通过前沿的AI技术赋能传统金融行业转型升级。此次融资不仅为恩耐博注入了强劲的发展动力,更彰显了资本市场对AI驱动型金融科技服务的高...
15:41
截至2025年10月底,中国电影市场呈现蓬勃发展的态势,新增影院233家,银幕数量增长至1588块,全国营业影院总数达到15438家,银幕总数累计达到92556块。这一数据充分展现了中国电影产业的持续扩张和多元化发展。值得注意的是,县级及乡镇影院在整体市场中占据重要地位,分别占比超过21%和18%,这表明电影服务正逐步向基层渗透,惠及更广泛的人群。 国产放映...
15:41
2025年9月2日,在火星杰泽罗陨石坑的壮丽地貌中,“毅力号”火星车意外邂逅了一块令人瞩目的岩石。这块岩石被命名为“Phippsaksla”,长度惊人地达到81厘米,其形态显著凸起于周围岩层,宛如一颗遗落在红色星球上的时间胶囊。通过搭载的SuperCam设备进行细致分析,科学家们发现其成分构成与小行星金属核高度吻合,初步判断可能是一块来自外太空的珍贵陨石。 ...
15:41
2025年11月26日,全国农产品批发市场的猪肉价格迎来显著上涨,平均价格达到17.87元/公斤,较前一日增长0.8%。这一变化反映出市场对猪肉供应的微妙调整,也间接影响着消费者的日常开支。农业农村部发布的监测数据显示,当日“农产品批发价格200指数”攀升至126.14,较前一日上涨0.20点,显示出整体农产品市场的温和复苏态势。而“菜篮子”产品批发价格指数...
15:41
2025年11月26日,全球领先的战略咨询公司贝恩发布了关于人形机器人市场前景的深度研究报告。这份具有前瞻性的分析预测,为我们描绘了这一新兴产业的宏伟蓝图。报告指出,到2035年,全球人形机器人的年销量有望达到惊人的600万台,市场规模将突破1200亿美元大关。而在更为乐观的预测情景下,年销量甚至可能超过1000万台,市场规模有望攀升至2600亿美元的高度。...
15:41
2025年第三季度,全球DRAM产业迎来强劲复苏,营收规模环比大幅增长30.9%,达到令人瞩目的414亿美元。这一显著增长主要得益于三大核心因素:常规DRAM合约价格稳步提升、终端出货量持续攀升,以及高带宽内存(HBM)产品市场份额的显著扩大。根据权威市场研究机构的数据分析,当季出货量与价格的双重提升共同推动了整体营收的强劲反弹,展现出行业强劲的复苏势头。 ...
15:41
2025年11月26日,工信部联合发改委、商务部、农业农村部、市场监管总局及生态环境部等六部门共同发布《关于增强消费品供需适配性进一步促进消费的实施方案》,旨在全面提升农村消费市场活力,释放内需潜力。方案聚焦农村消费品提质升级,明确提出鼓励企业针对农村环境特点,加大高效节能家电、智能卫浴产品等适销对路产品的研发力度,通过技术创新提升产品性能与用户体验。 方案...
15:41
2025年11月26日,工业和信息化部联合市场监管总局、商务部、国家发展改革委、财政部及海关总署等六部门联合发布《关于增强消费品供需适配性进一步促进消费的实施方案》,旨在通过创新消费场景和模式,全面提升消费市场活力。方案明确提出,各地应积极支持开设具有引领性的消费品首店、旗舰店以及新概念店,并鼓励举办各类首秀、首展活动,以此打造首发平台载体,为消费市场注入新...