
尽管数字化视频处理技术近年来取得了长足进步,但在处理复杂的空间运动和物理规律时,这些系统仍然存在明显的理解缺陷。它们或许能够识别画面中的物体,却难以回答诸如“红色汽车是否在蓝色汽车转弯前通过路口”或“皮球运行轨迹的最高点位于何处”等涉及精细物理逻辑的问题。造成这一问题的根本原因在于高质量运动参考数据的极度匮乏。现有的参考信息规模有限,且高度依赖成本高昂的人工识别,难以有效支撑计算系统学习真实世界中的细粒度物理运动规律。
针对这一行业痛点,由麻省理工学院、英伟达(NVIDIA)和加州大学伯克利分校等顶尖机构的研究团队共同研发了FoundationMotion——一套完全摆脱人工干预的自动化数据生成系统。该系统的工作流程就像一个全自动化的“运动数据工厂”,主要分为三个核心阶段:首先进行轨迹提取,系统运用先进的目标追踪技术,将视频中的行人、车辆或机械臂等运动物体转化为连续的时空坐标轨迹;接着通过语义转化,将抽象的坐标数据转化为结构化的文本说明,并结合视频帧信息,为系统生成一份详尽的“运动说明书”;最后在自动质检与生成阶段,通过逻辑整合生成包含速度、方向、时序关系及空间位置的精细化问答数据集。

令人惊叹的是,实验结果表明,仅依靠这套自动化管线生成的数据进行优化后,一个拥有150亿参数的视频分析系统在运动理解任务上的准确率达到了惊人的90.6%。这一表现不仅超越了拥有720亿参数的大型开源架构,甚至超过了目前市面上主流的商业闭源系统。研究人员指出,这一显著提升完全归功于数据的纯净度与准确性,证明了在自动驾驶、机器人协作等前沿领域,系统对物理世界的直觉认知可以通过海量高质量的自动化数据训练来有效建立。这一突破标志着数字化系统在迈向具备“物理常识”的具身智能技术道路上迈出了关键性步伐。
