
微新创想:小米近日在深夜发布三款全新模型,其中一款名为Xiaomi MiMo-V2-Omni的全模态基座模型尤为引人注目。该模型专为Agent时代的复杂多模态交互与执行场景设计,从底层架构出发,融合文本、视觉和语音等多种模态,构建了一个统一的感知与行动体系。其原生支持多模态感知、工具调用、函数执行以及GUI操作,能够无缝接入各类Agent框架,显著降低全模态Agent在实际应用中的部署难度。

在正式发布前,该模型的早期测试版本以「Healer Alpha」为代号,匿名上架全球最大API聚合平台OpenRouter。由于其出色的性能,未做任何宣传便迅速获得用户关注,调用量自然攀升至平台前列。同时,它还在OpenClaw测评榜单PinchBench上取得均分第一的成绩,获得了用户和专业测评的双重认可。MiMo-V2-Omni具备对标国际前沿的全模态感知能力,是高效执行任务的坚实基础。
在音频理解方面,MiMo-V2-Omni支持环境声分类、多说话人分离等功能,能够深度解析超过10小时的连续长音频。其综合表现超越Gemini 3 Pro,成为当前最强的音频理解基座模型之一。图像理解方面,该模型具备强大的多学科视觉推理和复杂图表分析能力,其性能超越Claude Opus 4.6,接近Gemini 3 Pro等顶尖闭源模型的水平。

视频理解方面,MiMo-V2-Omni支持原生音视频联合输入,依托创新的预训练技术,具备出色的情境感知与未来推理能力。这使得它在处理视频内容时,能够更准确地捕捉关键信息并做出合理推断。此外,该模型实现了从理解到任务完成的智能体能力升级,能够跨模态感知复杂环境,自主制定并执行计划,在遇到异常情况时还能实时调整策略,最终完成端到端的完整任务交付。
在真实数字环境交互的评测基准中,MiMo-V2-Omni的表现与Gemini 3 Pro相当,其前沿的感知能力与原生的行动能力形成复合优势。即使在纯文本智能体任务中,它也展现出高度的竞争力。经过一周的迭代优化,模型的全模态感知和智能体行动能力更加稳定,展现出在日常生产力场景中的巨大潜力。

目前,MiMo-V2-Omni已正式开放API服务,支持高达256K的上下文长度,输入价格为0.4美元每百万tokens,输出价格为2美元每百万tokens。开发者可通过指定平台接入该模型。同时,该模型还联合OpenClaw、OpenCode等五大Agent开发框架团队,为全球开发者提供为期一周的限时免费接口支持。
在多场景应用中,MiMo-V2-Omni的能力表现尤为亮眼。它能够深度解读电影片段中的隐喻与情感,精准提炼数小时访谈中的核心论点与逻辑脉络。结合OpenClaw框架,它还能像真人一样操控浏览器,完成选品、比价、砍价、下单、制作并发布短视频等复杂操作。面对网页报错、多标签切换等常见问题,模型也能自主解决,展现出强大的适应能力。

在智能办公场景中,MiMo-V2-Omni与金山办公合作,接入WPS Office,可根据用户指令直接生成高质量的Word文档、结构化的Excel表格、规范排版的PDF文件以及完整的PPT演示文稿。这不仅突破了传统对话机器人的局限,更切实提升了日常办公的效率,为用户提供更智能、更便捷的工作体验。
