小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用

微新创想:小米近日在深夜发布三款全新模型,其中一款名为Xiaomi MiMo-V2-Omni的全模态基座模型尤为引人注目。该模型专为Agent时代的复杂多模态交互与执行场景设计,从底层架构出发,融合文本、视觉和语音等多种模态,构建了一个统一的感知与行动体系。其原生支持多模态感知、工具调用、函数执行以及GUI操作,能够无缝接入各类Agent框架,显著降低全模态Agent在实际应用中的部署难度。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图1

在正式发布前,该模型的早期测试版本以「Healer Alpha」为代号,匿名上架全球最大API聚合平台OpenRouter。由于其出色的性能,未做任何宣传便迅速获得用户关注,调用量自然攀升至平台前列。同时,它还在OpenClaw测评榜单PinchBench上取得均分第一的成绩,获得了用户和专业测评的双重认可。MiMo-V2-Omni具备对标国际前沿的全模态感知能力,是高效执行任务的坚实基础。

在音频理解方面,MiMo-V2-Omni支持环境声分类、多说话人分离等功能,能够深度解析超过10小时的连续长音频。其综合表现超越Gemini 3 Pro,成为当前最强的音频理解基座模型之一。图像理解方面,该模型具备强大的多学科视觉推理和复杂图表分析能力,其性能超越Claude Opus 4.6,接近Gemini 3 Pro等顶尖闭源模型的水平。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图2

视频理解方面,MiMo-V2-Omni支持原生音视频联合输入,依托创新的预训练技术,具备出色的情境感知与未来推理能力。这使得它在处理视频内容时,能够更准确地捕捉关键信息并做出合理推断。此外,该模型实现了从理解到任务完成的智能体能力升级,能够跨模态感知复杂环境,自主制定并执行计划,在遇到异常情况时还能实时调整策略,最终完成端到端的完整任务交付。

在真实数字环境交互的评测基准中,MiMo-V2-Omni的表现与Gemini 3 Pro相当,其前沿的感知能力与原生的行动能力形成复合优势。即使在纯文本智能体任务中,它也展现出高度的竞争力。经过一周的迭代优化,模型的全模态感知和智能体行动能力更加稳定,展现出在日常生产力场景中的巨大潜力。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图3

目前,MiMo-V2-Omni已正式开放API服务,支持高达256K的上下文长度,输入价格为0.4美元每百万tokens,输出价格为2美元每百万tokens。开发者可通过指定平台接入该模型。同时,该模型还联合OpenClaw、OpenCode等五大Agent开发框架团队,为全球开发者提供为期一周的限时免费接口支持。

在多场景应用中,MiMo-V2-Omni的能力表现尤为亮眼。它能够深度解读电影片段中的隐喻与情感,精准提炼数小时访谈中的核心论点与逻辑脉络。结合OpenClaw框架,它还能像真人一样操控浏览器,完成选品、比价、砍价、下单、制作并发布短视频等复杂操作。面对网页报错、多标签切换等常见问题,模型也能自主解决,展现出强大的适应能力。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图4

在智能办公场景中,MiMo-V2-Omni与金山办公合作,接入WPS Office,可根据用户指令直接生成高质量的Word文档、结构化的Excel表格、规范排版的PDF文件以及完整的PPT演示文稿。这不仅突破了传统对话机器人的局限,更切实提升了日常办公的效率,为用户提供更智能、更便捷的工作体验。

最新快讯

2026年03月24日

08:38
3月23日,科技媒体Android Headline曝光Oura Ring 5智能戒指渲染图及核心参数。该产品采用更圆润的弧线造型,提升佩戴舒适性与美观度,并新增‘深玫瑰色’配色,同时保留金、哑光黑及双工艺银色版本。硬件上优化内置传感器,显著提升健康追踪精度;续航维持5–8天,充电方案沿用标准充电器与小型充电盒。发售预计在2027年假日季。
08:38
苹果公司将于2026年3月26日(周四)公布第7届Swift学生挑战赛350名获奖者名单。该赛事面向全球13岁以上在读学生,要求提交≤25MB、离线可用的交互式App Playground作品。评审聚焦创造力、社会影响力与包容性。所有获奖者获一年苹果开发者会员、Swift认证考试资格及定制证书;其中50人将受邀赴Apple Park参加为期三天的全包式活动...
08:38
2026年3月19日,育碧宣布终止旗下成立近30年的红色风暴(Red Storm)工作室的游戏开发职能,裁撤约105个岗位。该工作室将仅保留IT支持与Snowdrop引擎相关工作。此前,Red Storm正同步推进至少10个项目,包括《幽灵行动》续作、《细胞分裂》重启、《超越善恶2》及多款《彩虹六号》衍生内容等。此举系育碧全球成本优化计划一部分,后续更多削...
08:38
2026年3月24日,法国奢侈品牌爱马仕正式发布Paddock Yoyo旅行便携无线充电器。该产品采用Swift小牛皮与手工马鞍针工艺,形似悠悠球,双面充电:一面支持iPhone 15W磁吸充电,另一面集成Apple Watch专用磁吸模块,中部可收纳USB-C线缆。产品定位高端便携场景,专为频繁差旅的奢侈品用户设计。售价1750美元(约合12089元人民...
08:38
微新创想:2026年3月起 微软将通过Windows预览体验计划 分阶段向用户推送Windows 11多项改进功能 首批更新已于3月下旬在Canary与Dev通道上线 涵盖可移动任务栏、Copilot精简、更新控制增强、文件资源管理器优化等 后续功能将持续按月推送 经可选累计更新验证后 再纳入每月第二个星期二的强制安全更新 此举旨在提升稳定性与用户可控性 回...
08:38
微新创想:2026年3月24日,OpenAI发言人公开表示,微软当前及未来均是其至关重要的长期合作伙伴。此次声明发布于美国加州,标志着人工智能领域两大核心企业之间关系的进一步巩固。合作内容涵盖云计算、模型部署与产品集成等多个方面,双方希望通过深化合作加速人工智能技术的实际应用与落地。 微新创想:此次合作不仅限于现有业务范围,还涉及未来技术发展的多个层面。微软...
08:38
微新创想:Anthropic 于 3 月 24 日宣布旗下 AI 助手 Claude 新增“Computer Use”功能。该功能目前以研究预览版形式向 Pro 和 Max 用户开放。这项功能主要集成在两款桌面产品中:面向知识工作者的 Claude Cowork 以及面向开发者的 Claude Code。用户只需描述任务,Claude 就会自主规划操作步骤,...
08:07
微新创想:2026年3月24日,丰田汽车北美公司宣布将向美国肯塔基州和印第安纳州的工厂投资10亿美元。这项投资由丰田主导,主要目的是提升工厂的产能以及电动化零部件的生产水平。 此举是丰田在2025年11月公布的五年计划的一部分。根据该计划,丰田将在未来五年内追加投资100亿美元用于美国市场。此次10亿美元的投资是该计划的首批落地项目之一。 投资资金将用于设备...
08:07
微新创想:近日,三亚市交通运输局通报一起出租车司机违规事件。3月23日,一名乘客通过滴滴平台预约了巡游出租车(车牌号为琼BD09915),在行程途中,司机未经乘客同意擅自停车,试图搭载其他乘客。该行为遭到乘客拒绝后,司机继续完成原定行程。乘客随后向相关部门投诉,事件引起了广泛关注。 微新创想:经核查,该司机的行为严重违反了出租车运营服务规范,损害了乘客的合法...
08:07
微新创想:2026年3月23日,苹果公司在WWDC26官方新闻稿中罕见预告将重点发布人工智能新进展。大会定于2026年6月在加州圣何塞举行,面向全球开发者。苹果明确表示,iOS 27、iPadOS 27等系统将从底层集成多项AI突破,升级后的Siri将成为核心亮点。 尽管部分AI功能或随iOS 26.5提前上线,但WWDC26将首次系统性展示其与谷歌Gemi...
08:07
微新创想:2026年1至2月,新疆霍尔果斯口岸出口商品车5.4万辆,同比增长13.9%,创历史同期新高 出口目的地主要为中亚五国及俄罗斯,新能源汽车成主力品类 当地货运代理企业新增海外服务站,获多家车企授权 霍尔果斯海关推行24小时通关、自驾出口快速模式,并联动中欧班列等多元运力,压缩全链条通关时间,保障国产车高效出海
07:33
微新创想:2026年3月17日,前苹果工程师Akira Nonaka在其YouTube频道发布了一段摄于1999年7月27日的内部视频。这段珍贵的影像资料记录了乔布斯在纽约Macworld大会之后,于库比蒂诺苹果总部发表的讲话。视频内容详尽地展现了苹果当时所推行的“四象限”产品战略,包括iMac、Power Mac G3、PowerBook G3和iBook...