小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用

2026-03-19 10:02:38 互联网 5 次阅读

微新创想：小米近日在深夜发布三款全新模型，其中一款名为Xiaomi MiMo-V2-Omni的全模态基座模型尤为引人注目。该模型专为Agent时代的复杂多模态交互与执行场景设计，从底层架构出发，融合文本、视觉和语音等多种模态，构建了一个统一的感知与行动体系。其原生支持多模态感知、工具调用、函数执行以及GUI操作，能够无缝接入各类Agent框架，显著降低全模态Agent在实际应用中的部署难度。

在正式发布前，该模型的早期测试版本以「Healer Alpha」为代号，匿名上架全球最大API聚合平台OpenRouter。由于其出色的性能，未做任何宣传便迅速获得用户关注，调用量自然攀升至平台前列。同时，它还在OpenClaw测评榜单PinchBench上取得均分第一的成绩，获得了用户和专业测评的双重认可。MiMo-V2-Omni具备对标国际前沿的全模态感知能力，是高效执行任务的坚实基础。

在音频理解方面，MiMo-V2-Omni支持环境声分类、多说话人分离等功能，能够深度解析超过10小时的连续长音频。其综合表现超越Gemini 3 Pro，成为当前最强的音频理解基座模型之一。图像理解方面，该模型具备强大的多学科视觉推理和复杂图表分析能力，其性能超越Claude Opus 4.6，接近Gemini 3 Pro等顶尖闭源模型的水平。

视频理解方面，MiMo-V2-Omni支持原生音视频联合输入，依托创新的预训练技术，具备出色的情境感知与未来推理能力。这使得它在处理视频内容时，能够更准确地捕捉关键信息并做出合理推断。此外，该模型实现了从理解到任务完成的智能体能力升级，能够跨模态感知复杂环境，自主制定并执行计划，在遇到异常情况时还能实时调整策略，最终完成端到端的完整任务交付。

在真实数字环境交互的评测基准中，MiMo-V2-Omni的表现与Gemini 3 Pro相当，其前沿的感知能力与原生的行动能力形成复合优势。即使在纯文本智能体任务中，它也展现出高度的竞争力。经过一周的迭代优化，模型的全模态感知和智能体行动能力更加稳定，展现出在日常生产力场景中的巨大潜力。

目前，MiMo-V2-Omni已正式开放API服务，支持高达256K的上下文长度，输入价格为0.4美元每百万tokens，输出价格为2美元每百万tokens。开发者可通过指定平台接入该模型。同时，该模型还联合OpenClaw、OpenCode等五大Agent开发框架团队，为全球开发者提供为期一周的限时免费接口支持。

在多场景应用中，MiMo-V2-Omni的能力表现尤为亮眼。它能够深度解读电影片段中的隐喻与情感，精准提炼数小时访谈中的核心论点与逻辑脉络。结合OpenClaw框架，它还能像真人一样操控浏览器，完成选品、比价、砍价、下单、制作并发布短视频等复杂操作。面对网页报错、多标签切换等常见问题，模型也能自主解决，展现出强大的适应能力。

在智能办公场景中，MiMo-V2-Omni与金山办公合作，接入WPS Office，可根据用户指令直接生成高质量的Word文档、结构化的Excel表格、规范排版的PDF文件以及完整的PPT演示文稿。这不仅突破了传统对话机器人的局限，更切实提升了日常办公的效率，为用户提供更智能、更便捷的工作体验。

2026年03月24日

08:38

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用

最新快讯

2026年03月24日

Oura Ring 5 渲染图曝光：新配色与传感器升级

苹果将于3月26日公布2026年Swift学生挑战赛获奖名单

育碧终止红色风暴游戏开发业务，裁撤105人

爱马仕推出1750美元悠悠球造型无线充电器

微软Win11渐进式修复升级 3月起分批推送新功能

OpenAI微软深化长期合作加速AI技术商业化落地

Anthropic推出Claude桌面控制功能支持手机远程派发任务

丰田10亿美元升级美肯塔基印第安纳工厂推动电动化转型

三亚出租车司机违规拼客被停班培训滴滴平台封号处理

苹果WWDC26提前曝光AI大升级聚焦与Gemini合作突破

霍尔果斯口岸2026年1-2月出口商品车5.4万辆创新高

乔布斯1999年内部讲话揭秘苹果复兴战略与未来产品布局