
在全球人工智能领域持续聚焦于语言模型参数规模与上下文处理能力的背景下,人工智能先驱李飞飞(Fei-Fei Li)以深刻洞见发出警示:真正的智能本质并非“会说话”,而是理解并操控物理世界的能力——即“空间智能”(Spatial Intelligence)。在最新发布的博客文章中,她明确指出:若人工智能无法掌握空间推理、物体关系及动态预测等核心能力,所谓的“通用人工智能”终将沦为空中楼阁。
空间智能:人类认知的原始引擎
李飞飞强调,空间智能是人类认知体系的基石,其发展远早于语言系统的出现。从婴儿通过伸手抓握玩具展现的直觉性空间感知,到科学家借助X射线衍射图推演出DNA双螺旋结构的突破性发现;从古希腊人利用影子测算地球周长的智慧,到现代工程师设计自动驾驶车辆的路径规划——所有这些人类文明的重大进步,都离不开对空间、形状、运动及因果关系的深刻理解。然而令人担忧的是,当前主流的大型语言模型虽在文本生成方面表现出色,但在处理“杯子放在桌子边缘是否会掉落”这类基础物理常识时却屡屡出错,暴露出严重的能力短板。
超越”下一个词预测”:构建AI的”世界模型”
为突破这一技术瓶颈,李飞飞提出必须构建新一代世界模型(World Model)——这是一种能够对物理环境进行生成、交互与状态预测的多模态智能系统。该模型需具备三大核心能力:首先,能够感知三维甚至四维(包含时间维度)信息,而不仅仅是处理二维图像;其次,能够理解动作与结果的因果链条,例如预测“推倒积木塔”后可能引发的连锁反应;最后,通过主动与环境交互学习,而非被动接受标注数据。实现这一目标面临三大技术挑战:开发新型训练范式以替代传统的“下一个词预测”方法、从海量视频中提取深层空间结构特征,以及设计支持3D/4D推理的新型神经架构。目前,李飞飞团队正致力于将计算机视觉、具身智能与生成式AI技术深度融合,以期攻克这些难题。

三阶段落地:从创意到科学,重塑人类生产力
李飞飞描绘了空间智能技术发展的三阶段演进路径:近期目标是通过赋能电影、游戏与虚拟叙事领域,实现更逼真的动态场景生成;中期目标是让服务机器人真正理解家庭环境,能够安全递送物品、协助老年人等特殊群体;长期愿景则是推动科学发现(如分子折叠模拟)、精准医疗(手术路径规划)与沉浸式教育等领域的重大突破。在这一过程中,李飞飞始终强调AI的使命在于增强人类而非取代人类,呼吁学界与产业界共同构建开放、负责任的空间智能生态体系,确保技术发展成果能够普惠全人类。
AIbase评论认为,李飞飞的这一倡议不仅是技术路线的适时转向,更是对人工智能发展哲学的重要校准。当行业从过度沉迷“语言幻觉”转向关注“物理现实”,人工智能才能真正突破聊天窗口的局限,走进工厂车间、科学实验室和千家万户。这场空间智能革命,或许正是通往真正智能机器的唯一康庄大道。
