大模型视觉推理难敌6岁孩童?揭秘AI认知瓶颈

大模型视觉推理难敌6岁孩童?揭秘AI认知瓶颈插图1

在人工智能领域屡创佳绩,屡次在博士级竞赛中拔得头筹的今天,我们似乎已经默认这些数字大脑已经全面超越人类。然而,一项由 UniPat AI、xbench、阿里、月之暗面以及阶跃星辰等多家顶尖机构联合发布的最新研究,却给这种乐观情绪泼了一盆冷水。这项研究的结果令人震惊:即便是在这一赛道领跑的 Gemini 3 Pro Preview,其视觉推理能力也仅仅略胜三岁幼儿一筹,而面对六岁儿童的认知水平,它依然存在高达 20% 的能力断层。这场被称为 BabyVision 的视觉推理“闭卷考试”,彻底暴露了大模型在物理世界感知上的短板。当人类幼儿能够轻而易举地完成“找不同”或空间拼图时,那些在数学难题面前谈笑风生的 AI 巨头们却纷纷遭遇滑铁卢。

大模型视觉推理难敌6岁孩童?揭秘AI认知瓶颈插图2

推理的“语言陷阱”:为何 AI 看不清世界?为什么坐拥万亿参数的大模型,会卡在如此基础的视觉任务上?研究发现,症结在于大模型至今仍是一个“语言动物”。它们在处理视觉信息时,习惯于先将图像翻译成文字描述,再进行逻辑推演。这种“曲线救国”的方式在处理宏观概念时尚能应付,但在面对那些无法用言语精准捕捉的视觉特征——比如微小的曲线偏移、复杂的几何交叉点或是细腻的空间遮挡关系时,信息便在翻译过程中大量丢失。

大模型视觉推理难敌6岁孩童?揭秘AI认知瓶颈插图3

视觉推理的四大“滑铁卢”研究团队通过 BabyVision 基准,将大模型的视觉缺陷归纳为四大维度:非言语精细细节缺失:大模型往往无法分辨像素级的几何差异,在拼图匹配中常因为无法“想象”形状的旋转对齐而选错答案。流形一致性丢失:在长距离连线或轨迹追踪任务中,大模型就像在迷宫中迷路的孩子,一旦遇到路径交叉,极易“走岔”并丢失原有的感知线索。空间想象力匮乏:文字叙述无法忠实还原三维空间,大模型在推断积木的侧视图或隐藏体积时,频繁出现数错层数或投影错误的尴尬。视觉模式归纳障碍:它们倾向于死板地“数属性”而非理解变化规律,难以从少量视觉示例中抽象出深层的因果逻辑。

具身智能的阵痛与新生这一结论无疑让当前火热的“具身智能”赛道倍感压力。如果一个 AI 甚至无法像六岁孩子一样准确识别身边的物理环境,我们又该如何指望它在真实的物理世界中安全地协助人类?针对这一瓶颈,研究者提出了两条进化路径:一是引入强化学习(RLVR),通过显式的中间推理来对冲感知的不确定性;二是彻底拥抱原生多模态推理,让模型学会像 Sora 2 那样在像素空间内直接进行“视觉演算”,而非借道语言。AI 进化史上的这一场“返祖”研究提醒我们,通往通用人工智能(AGI)的道路,或许并不在更高难度的数学题里,而在那些六岁孩子就能轻松玩转的拼图游戏中。

最新快讯

2026年01月23日

18:00
OpenAI 长期以来坚守纯净的对话体验,如今终于决定进军广告领域。据内部消息人士透露,这家人工智能巨头已经选定首批数十家合作伙伴,计划在2月初正式推出聊天机器人广告业务。这一举措不仅是 OpenAI 商业模式的重大转变,更标志着 AI 领域进入“流量变现”的新阶段。OpenAI 的广告策略独具特色,与 Google 或亚马逊的“按点击计费”模式不同,初期将...
18:00
1月23日,IDC发布《全球人形机器人市场分析》报告显示,2025年该市场实现508%的爆发式增长,全球出货量约1.8万台。中国厂商智元(AGIBOT)表现惊人,一举斩获全球整体出货量、五大主流场景出货量及全尺寸细分领域出货量三项世界第一,以约39%的市场份额领跑全球规模化商用进程。智元的领先得益于其全方位的场景覆盖与产品矩阵。报告指出,智元在工业智造、科研...
17:58
2026年1月23日,微信“珊瑚安全”公众号发布新规,即日起强化对虚假摆拍类视频的治理。治理重点包括虚构时事、恶意消费善意、AI伪造误导等六类行为。平台推行分级标识管理,要求虚构内容标注“内容为虚构剧情”,AI生成内容须注明“含AI生成内容”,并优化发布中标注功能。违规处置实行梯度化,从限流、下架到封禁账号;MCN机构承担连带责任。此举旨在厘清虚构与真实边...
17:58
2026款途锐锐臻版正式登陆中国市场 1月23日,备受瞩目的2026款途锐锐臻版车型正式在中国市场揭开神秘面纱。这款豪华SUV不仅延续了途锐家族的经典设计,更在性能、科技与舒适度上实现了全面突破,为高端汽车市场注入了新的活力。 新车搭载3.0T V6双涡轮增压发动机,最大功率达到惊人的340马力,配合采埃孚8AT变速箱,动力输出平顺且响应迅速。4MOTION...
17:58
2026年春运期间,东航将投入822架客运飞机,包括14架C919和31架C909。C919日均执飞近50班,同比增长超50%,并将新增上海虹桥—珠海等航线,执飞航线达18条。C909则加密多条区域航线。东航总计执行航班12.5万班,日均超3200班,助力今年民航春运旅客运输量有望达9500万人次,创历史新高。
17:58
1月23日,广州卫健委在大湾区医疗健康创新大会上宣布,AI就医助理“穗小伊”正式上线蚂蚁阿福APP。该助理由广州市卫健委与蚂蚁阿福联合开发,面向广州市民提供24小时智能健康服务。用户可通过语音或文字交互,实现健康咨询、智能挂号、候诊叫号、医保支付及检验报告查询与解读等功能。此举旨在提升基层医疗服务可及性与效率,推动智慧医疗普惠化。
17:58
2026年1月23日,意大利太空服务企业D-Orbit宣布完成5300万美元D轮融资,由Azimut Group领投。该公司总部位于意大利,致力于提供太空拖船等在轨服务,已执行13次商业任务,客户遍及全球。本轮融资将用于加速其ION卫星平台迭代、拓展全球地面站网络及推进可持续太空基础设施建设。D-Orbit愿景为‘让太空更可持续、更安全、更有价值’。
17:58
1月23日,Visa发布《2026年全球支付预测》,提出全球支付行业六大趋势:AI驱动智能商务进入执行时代;身份安全迈入AI时代;支付标记化加速普及;跨境支付持续向移动化演进;企业支付进一步消费化;全球支付网络由互通迈向协同。报告基于对技术演进、监管动态与用户行为的综合分析,旨在为金融机构与商户提供前瞻指引。
17:58
掌阅科技1月23日公告,预计2025年归属于上市公司股东的净利润约为-1.95亿元,扣非后净利润为-2.12亿元,由盈转亏。上年同期公司净利润为4929.17万元。业绩下滑主要因公司推进战略转型,大力发展短剧等衍生业务,升级为“人工智能时代的多模态内容生产运营平台”,并实施国内扩张与海外突破双轮驱动,短期内投入大幅增加,拖累整体盈利能力。公司称此为战略升级...
17:58
2026年1月23日,新盟(XINMENG)正式发布ZERO68系列磁轴键盘,包含Pro有线单模和Max三模两款。该系列采用65%配列,配备锻碳纹理外壳与碳纤维定位板,全系支持0.005mm RT精度、8kHz轮询率及0.1ms超低延迟。Pro版售价199至249元,搭载高特白玉或环诺璃玉磁轴;Max版内置6000mAh电池,售价279元。产品集成六层填充...
17:58
截至2026年1月23日,育碧确认《超越善恶2》仍处于积极开发阶段。该游戏最早于2008年公布,至今已有17年多,但实际开发始于2017年左右,历时约8至9年。尽管项目耗资或超5亿美元,且2023年曾因蒙彼利埃工作室出现大规模开发者倦怠被调查,育碧仍视其为战略核心之一。公司发言人表示,该作是开放世界冒险战略的重要组成部分,目前虽无发售时间表,但开发优先级未...
17:58
1月22日,惠科股份与保荐机构中金公司正式对外披露了关于第二轮审核问询函的详细回复,其中重点针对市场高度关注的毛利率波动及存货管理问题进行了系统性阐述。作为国内领先的半导体显示面板与智能终端研发制造企业,惠科股份此次不仅回应了监管机构的核心关切,更向外界展示了其清晰的战略布局与稳健的财务预期。 公司此次募资计划高达85亿元,这笔资金将重点投向四大核心领域:一...