小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用

微新创想:小米近日在深夜发布三款全新模型,其中一款名为Xiaomi MiMo-V2-Omni的全模态基座模型尤为引人注目。该模型专为Agent时代的复杂多模态交互与执行场景设计,从底层架构出发,融合文本、视觉和语音等多种模态,构建了一个统一的感知与行动体系。其原生支持多模态感知、工具调用、函数执行以及GUI操作,能够无缝接入各类Agent框架,显著降低全模态Agent在实际应用中的部署难度。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图1

在正式发布前,该模型的早期测试版本以「Healer Alpha」为代号,匿名上架全球最大API聚合平台OpenRouter。由于其出色的性能,未做任何宣传便迅速获得用户关注,调用量自然攀升至平台前列。同时,它还在OpenClaw测评榜单PinchBench上取得均分第一的成绩,获得了用户和专业测评的双重认可。MiMo-V2-Omni具备对标国际前沿的全模态感知能力,是高效执行任务的坚实基础。

在音频理解方面,MiMo-V2-Omni支持环境声分类、多说话人分离等功能,能够深度解析超过10小时的连续长音频。其综合表现超越Gemini 3 Pro,成为当前最强的音频理解基座模型之一。图像理解方面,该模型具备强大的多学科视觉推理和复杂图表分析能力,其性能超越Claude Opus 4.6,接近Gemini 3 Pro等顶尖闭源模型的水平。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图2

视频理解方面,MiMo-V2-Omni支持原生音视频联合输入,依托创新的预训练技术,具备出色的情境感知与未来推理能力。这使得它在处理视频内容时,能够更准确地捕捉关键信息并做出合理推断。此外,该模型实现了从理解到任务完成的智能体能力升级,能够跨模态感知复杂环境,自主制定并执行计划,在遇到异常情况时还能实时调整策略,最终完成端到端的完整任务交付。

在真实数字环境交互的评测基准中,MiMo-V2-Omni的表现与Gemini 3 Pro相当,其前沿的感知能力与原生的行动能力形成复合优势。即使在纯文本智能体任务中,它也展现出高度的竞争力。经过一周的迭代优化,模型的全模态感知和智能体行动能力更加稳定,展现出在日常生产力场景中的巨大潜力。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图3

目前,MiMo-V2-Omni已正式开放API服务,支持高达256K的上下文长度,输入价格为0.4美元每百万tokens,输出价格为2美元每百万tokens。开发者可通过指定平台接入该模型。同时,该模型还联合OpenClaw、OpenCode等五大Agent开发框架团队,为全球开发者提供为期一周的限时免费接口支持。

在多场景应用中,MiMo-V2-Omni的能力表现尤为亮眼。它能够深度解读电影片段中的隐喻与情感,精准提炼数小时访谈中的核心论点与逻辑脉络。结合OpenClaw框架,它还能像真人一样操控浏览器,完成选品、比价、砍价、下单、制作并发布短视频等复杂操作。面对网页报错、多标签切换等常见问题,模型也能自主解决,展现出强大的适应能力。

小米发布全模态基座模型MiMo-V2-Omni 助力Agent时代高效执行与多场景应用插图4

在智能办公场景中,MiMo-V2-Omni与金山办公合作,接入WPS Office,可根据用户指令直接生成高质量的Word文档、结构化的Excel表格、规范排版的PDF文件以及完整的PPT演示文稿。这不仅突破了传统对话机器人的局限,更切实提升了日常办公的效率,为用户提供更智能、更便捷的工作体验。

最新快讯

2026年03月24日

06:59
微新创想:苹果公司于2026年3月24日宣布2026年全球开发者大会(WWDC26)将于6月9日至13日在线举行主会场设在美国加州库比提诺Apple Park 此次大会面向全球开发者及学生涵盖主题演讲Platforms State of the Union超100场视频讲座及互动实验室为不同层次的开发者提供丰富的学习与交流机会 6月9日当天将在Apple P...
06:59
微新创想:2026年3月,LG显示率先实现支持最低1Hz刷新率的LCD笔记本屏幕量产。这一突破性技术标志着笔记本显示技术迈入了全新的节能阶段。 该面板采用“Oxide 1Hz”技术,能够智能识别用户的使用场景。在静态内容如文档阅读或网页浏览时,屏幕会自动降至1Hz刷新率,从而显著降低功耗。而在需要快速响应的动态操作,例如视频播放或游戏时,面板则能瞬时升至最高...
06:59
微新创想:2026年夏季苹果公司将在iPhone等设备的地图App中正式推出广告功能 这一举措标志着苹果在服务业务领域迈出了重要一步。通过在地图应用中引入广告功能,苹果希望进一步拓展其服务业务的收入来源,以应对其他业务增长放缓所带来的挑战 广告机制的设计与谷歌地图相似,允许零售商根据特定关键词进行竞价投放位置广告。例如,当用户搜索“寿司”时,相关商家可以竞标...
05:54
微新创想:3月24日,日本大和证券SMBC株式会社宣布将晶科能源(688223.SH)投资评级由“卖出”上调至“持有”,目标价定为7.80元人民币。此次调整基于公司N型TOPCon电池出货量持续增长、海外市场渠道深化及盈利边际改善预期。该机构认为,晶科能源在技术迭代与全球化布局方面已显现竞争优势,短期估值具备修复基础。评级调整即日起生效。
01:36
微新创想:苹果公司于2026年3月24日宣布,年度全球开发者大会(WWDC)定于6月8日至12日在线举行。本届大会将面向全球开发者,聚焦iOS 19、macOS 16、visionOS 3等新一代操作系统更新及AI技术集成。活动全程线上举办,延续近年无线下主会场模式。此举旨在降低参与门槛并扩大开发者覆盖范围。注册通道预计将于4月中旬开放。
01:36
微新创想:2026年3月22日,苏宁电器集团重整案管理人正式回应,澄清网传“张近东资产清零、千亿债务重组执行完毕”等消息为不实信息。该重整案于2025年1月由南京市中级人民法院裁定受理,涉及债务总额高达2387亿元人民币,目前仍处于执行阶段。 根据法院裁定的重整计划,苏宁电器集团及其关联的38家公司全部资产已被纳入信托计划。这意味着相关资产将由专业机构进行管...
00:01
微新创想:2026年3月23日 法国道达尔能源公司首席执行官宣布 将加快在美国液化天然气LNG领域的投资布局 此举旨在响应全球能源转型趋势及欧美市场对清洁能源需求增长 公司计划扩大在美LNG接收站 出口设施及配套基础设施的资本支出 重点推进已合作项目落地 加速投资亦有助于增强其在全球LNG供应链中的竞争力 并支持欧洲能源供应多元化战略 具体投资规模与时间节点...
00:00
微新创想:2026年3月23日,受中东局势升级影响,多国船东暂停放舱,海运空运成本飙升、运力紧张。这一变化对全球贸易物流格局带来了显著冲击,促使各国重新评估其运输策略。 我国外贸与物流企业加速调整运输路径,部分货物转向替代市场,部分由海运转为陆运。这种灵活的应对方式不仅缓解了运输压力,也提高了整体供应链的稳定性与效率。 中欧班列因兼具成本效益与时效稳定性,正...

2026年03月23日

22:53
微新创想:2026年3月23日22时08分 微信面向安卓用户发布8.0.70内测版(ARM64架构) 该版本安装包大小为243.3MB 目标API等级为34 最低支持Android 7.0(API 24) 更新日志仅提及“优化了一些已知问题” 未披露具体功能调整 目前仅限内测渠道获取 用户可通过IT之家公众号回复“微信”下载 本次更新由腾讯官...
22:53
微新创想:近日,天文学家基于詹姆斯·韦布空间望远镜(JWST)的观测数据提出了一项新的科学假说。他们发现一些被称为‘小红点’的神秘天体,可能并非人们普遍认为的婴儿黑洞,而是宇宙早期正在形成的球状星团。这些天体位于高红移区域,意味着它们存在于宇宙诞生后的数亿年之间。 这一发现挑战了传统的天体分类观念。‘小红点’的光谱呈现出独特的V形特征,研究团队认为这可能与理...
22:53
微新创想:微软Xbox将于当地时间3月26日举行伙伴预览发布会 活动时间大约为30分钟 此次发布会将向全球玩家展示多款合作游戏的最新动态 包括《STRANGER THAN HEAVEN》《苍穹浩瀚:奥西里斯重生》《潜行者2:切尔诺贝利之心》等作品 微软将公布这些游戏的详细信息 并介绍其在Xbox平台上的表现 活动期间还将有数款游戏实现全球首发或抢先体验 这些...
22:50
微新创想:3月23日消息 近日 一首名为《七天爱人》的歌曲在网络上引发了广泛关注 这首歌的创作者Yapie并非职业音乐人 而是一名程序员 据媒体报道 Yapie仅用了2小时时间 通过DeepSeek辅助创作 便完成了这首AI歌曲 该作品随后迅速登上了热搜榜 展现了人工智能在创意领域的巨大潜力 这首由程序员跨界创作的单曲表现惊人 在短短两周的时间内 它就为创作...