
在备受瞩目的2025小米人车家全生态合作伙伴大会上,小米任命的新任Xiaomi MiMO大模型负责人罗福莉首次公开亮相,并正式揭幕了其最新研发的MoE(Mixture of Experts)大模型——MiMo-V2-Flash。这一创新模型的发布,标志着小米在迈向人工通用智能(AGI)宏伟目标上迈出了关键性第二步,展现了其在人工智能领域的持续突破与前瞻布局。
罗福莉在社交媒体上深入解析了MiMo-V2-Flash的技术架构。该模型采用了兼具简洁与高效特点的Hybrid SWA架构,在处理长上下文推理任务时,其表现明显超越其他线性注意力变体。特别值得一提的是,窗口大小设置为128被证实为最佳选择,而窗口过大反而会导致性能下降。此外,固定的KV缓存设计显著增强了模型与现有基础设施的兼容性,为实际应用提供了便利。
在关键技术方面,罗福莉重点介绍了多标记预测(MTP)技术。通过这一创新方法,模型在强化学习(RL)中的应用效率得到了显著提升。即使在第一层之外,MTP仅需少量微调,即可实现较高的接受长度。尤其在三层MTP在编程任务中的表现,实现了接受长度超过3的突破,同时速度提升了约2.5倍,有效解决了小批量On-Policy RL中的GPU空转问题。
在后训练阶段,小米引入了Thinking Machine提出的On-Policy Distillation技术,旨在通过融合多个RL模型,进一步提升模型性能。这一创新方法使得小米在计算量仅为传统SFT和RL流程的1/50的情况下,依然能达到教师模型的性能水平。这一过程不仅展现了学生模型的持续进化潜力,更构建了一个自我强化的闭环系统。
罗福莉强调,团队在短短几个月内便将这些先进理念转化为实际可运行的生产系统,充分展现了其非凡的效率与创造力。这一系列成就不仅彰显了小米在人工智能领域的深厚积累,更为未来AGI目标的实现奠定了坚实基础。
