
2025年11月21日,小米重磅发布业界首创的跨域基座模型——MiMo-Embodied,该模型成功打通了自动驾驶与具身智能两大领域的技术壁垒,并已正式开源。模型的完整代码与权重数据已同步发布至Hugging Face与arXiv平台,为全球开发者提供了宝贵的科研资源。
技术亮点
MiMo-Embodied的核心创新在于其卓越的跨域能力覆盖。这套统一的参数体系能够同时胜任具身智能的三大核心任务——可供性推理、任务规划以及空间理解,同时也完全适配自动驾驶的三大关键环节——环境感知、状态预测和驾驶规划。通过这一创新设计,模型实现了室内人机交互与道路智能决策的统一建模,为复杂场景下的智能应用开辟了全新路径。
在技术验证过程中,MiMo-Embodied展现出显著的双向协同赋能特性。模型成功验证了室内交互能力与道路决策能力之间的知识迁移效应,这种跨场景的知识共享机制为构建真正的跨域智能系统提供了重要启示。通过双向交互的训练过程,模型不仅提升了单一场景下的性能表现,更实现了跨领域知识的深度融合与迁移。
为了确保模型在实际应用中的可靠性,小米研发团队采用了”具身/自驾能力学习→CoT推理增强→RL精细强化”的多阶段训练策略。这一全链路优化方案通过分阶段训练逐步提升模型的泛化能力与适应性能,显著增强了模型在真实复杂环境中的部署可靠性。

性能表现
在涵盖感知、决策与规划的29项核心基准测试中,MiMo-Embodied的表现全面超越了当前业界所有开源、闭源及专用模型。在具身智能领域,模型在17项Benchmark测试中取得了SOTA(State-of-the-Art)成果;在自动驾驶领域,12项Benchmark测试刷新了现有最佳成绩。尤为值得关注的是,该模型在通用视觉语言任务上也展现出惊人的泛化能力,充分证明了其强大的跨领域适应潜力。
应用与生态
小米已规划将MiMo-Embodied率先应用于自研的智能扫地机器人、工厂自动化AGV(自动导引运输车)以及SU7高阶智能驾驶系统。预计从2026年第一季度起,将通过OTA(Over-the-Air)方式向这些产品推送模型更新。同时,小米向家居、移动出行、制造业等领域的开发者开放模型API接口,旨在构建一个开放的跨域智能生态系统,推动跨域智能技术的普及与应用。这一举措将为各行业带来全新的智能化解决方案,加速跨域智能技术的商业化进程。
