
微新创想:小米今日正式发布并开源Xiaomi OneVL自动驾驶模型。该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一。在具备XLA模型强悍推理能力的基础上,Xiaomi OneVL大幅提升了推理的速度和精度,成为行业内具备开创性的方案。
微新创想:在精度上,Xiaomi OneVL超越了显式CoT;在速度上,它对齐了仅答案预测的潜空间CoT方案。过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线。VLA专注于理解场景并输出驾驶动作,世界模型则专注于预测未来场景的演变。Xiaomi OneVL通过潜空间推理,首次将两者统一到同一套框架中。

微新创想:在涵盖感知、推理与规划的多个主流基准上,Xiaomi OneVL全面刷新了潜在推理方法的性能上限。在ROADWork、Impromptu、Alpamayo-R1三项基准上均达到SOTA,并在NAVSIM上取得优越性能,PDM-score达到88.84,首次在潜空间推理中超越显式CoT(88.29)。
微新创想:目前,Xiaomi OneVL是唯一在所有基准上超越显式自回归CoT的隐式推理方法。通过挂载MLP回归头变体,其延迟进一步压缩到0.24秒(4.16 Hz),仅为VLA自回归推理的5.4%。这一表现为量产车端的实时部署提供了可行路径。
微新创想:消融实验进一步验证,压缩物理世界的动态信息能够带来显著的性能提升。同时,Xiaomi OneVL能为模型决策提供语言和视觉双维度的可解释性。它既能用文字说明为什么这样开,也能用预测画面展示接下来会发生什么。
