小米开源全新多模态大模型MiMo-VL-7B-2508 性能突破70分

2025-08-09 10:26:54 AI动态 69 次阅读

小米大模型团队正式发布开源最新一代多模态大模型——Xiaomi MiMo-VL-7B-2508，该模型提供强化学习（RL）与监督微调（SFT）两种版本，为开发者与研究人员带来更强大的多模态交互体验。官方权威数据显示，新版模型在学科推理、文档理解、图形界面定位及视频理解四项核心能力上实现了全面突破，各项指标均创下历史新高。其中，MMMU基准测试首次突破70分大关，ChartQA表现优异升至94.4分，ScreenSpot-v2达到92.5分，VideoMME也显著提升至70.8分，充分展现了模型在多模态任务处理上的卓越能力。

此次模型迭代通过深度优化强化学习稳定性与监督微调流程，使模型在内部VLM Arena评分中实现从1093.9到1131.2的显著跃升，性能提升幅度超过3%。尤为值得关注的是，该模型创新性地支持用户通过“/no_think”指令自由切换“思考”与“非思考”模式。在“思考”模式下，模型会全程展示推理链条，确保控制成功率100%，适合需要透明化推理过程的场景；而在“非思考”模式下，模型将直接生成答案，响应速度更快，成功率高达99.84%，满足用户对高效交互的需求。官方推荐用户在大多数情况下优先体验RL版本，以获得更全面的性能表现。

对于开发者而言，Xiaomi MiMo-VL-7B-2508提供了丰富的开源资源，用户可以根据实际需求灵活进行SFT或RL的定制开发。相较于上一版SFT模型，新版本在强化学习稳定性方面实现了显著提升，为模型在实际应用中的可靠性和一致性提供了有力保障。模型的开源地址已公布，RL版本用户可通过https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508获取，SFT版本用户则可访问https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508下载，开发者可基于此模型构建个性化的多模态应用解决方案。