9月19日,小米公司正式宣布开源其自主研发的首个原生端到端语音大模型——Xiaomi-MiMo-Audio,这一里程碑式的成果标志着语音技术领域迎来了划时代的突破。五年前,GPT-3的横空出世开启了通用人工智能(AGI)的新纪元,然而语音领域始终受限于对大规模标注数据的依赖,难以实现类似语言模型的少样本泛化能力。如今,小米凭借其创新性的预训练架构和上亿小时的训练数据,成功在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化,并在预训练过程中首次观察到显著的“涌现”现象。

Xiaomi-MiMo-Audio 模型在多个权威评测基准中展现出卓越性能,不仅超越了同参数量的开源模型,更在音频理解基准 MMAU 的标准测试集上超越了 Google 的闭源语音模型 Gemini-2.5-Flash,同时在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview。这一系列突破不仅彰显了小米在语音技术领域的深厚积累,更为语音 AI 的发展指明了新的方向。

小米此次开源的 Xiaomi-MiMo-Audio 模型包含多项创新性突破。首先,该模型首次证实将语音无损压缩预训练扩展至1亿小时能够“涌现”出跨任务的泛化性,表现为少样本学习能力,这一成就被视为语音领域的“GPT-3时刻”。其次,小米作为首个明确语音生成式预训练目标与定义的公司,开源了一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法及评测体系,由此开启了语音领域的“LLaMA时刻”。此外,Xiaomi-MiMo-Audio 是首个将思考过程同时融入语音理解和语音生成过程中的开源模型,支持混合思考模式。

小米开源原生端到端语音大模型Xiaomi-MiMo-Audio引领语音AI新突破插图

小米采取了简洁、彻底且直接的开源策略,旨在加速语音研究领域的快速发展。开源内容涵盖预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct,以及 Tokenizer 模型、技术报告和评估框架。MiMo-Audio-7B-Instruct 模型可通过 prompt 切换 non-thinking 和 thinking 两种模式,强化学习起点高、潜力巨大,可作为研究语音 RL 和 Agentic 训练的全新基座模型。Tokenizer 模型拥有1.2B参数量,采用 Transformer 架构,兼顾效率与性能,通过从头开始训练覆盖超过千万小时语音数据,同时支持音频重建任务和音频转文本任务。技术报告全面展示了模型和训练细节,而评估框架则支持10多个测评任务,已开源至 GitHub。

小米公司表示,Xiaomi-MiMo-Audio 的开源将显著加速语音大模型研究对齐到语言大模型,为语音 AGI 的发展奠定重要基础。小米将持续推进开源进程,期待与每一位同行者携手,以开放与协作的姿态,迈向语音 AI 的“奇点”,共同走进未来的人机交互时代。https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

最新快讯

2026年02月14日

19:31
微新创想:2月14日17时48分,电影《飞驰人生3》全国预售票房突破1亿元。该片由韩寒执导,沈腾主演,定于2026年春节档(2月29日)正式上映。预售开启后迅速引发观众关注,单日预售额多次刷新同档期纪录。片方表示,影片延续热血喜剧风格,聚焦平民赛车手重返赛场的故事。此次破亿成绩创近年国产喜剧预售新高,反映春节档观影需求旺盛。
19:31
微新创想:2026年2月14日,字节跳动芯片研发团队宣布启动规模化招聘。此次招聘旨在加强在芯片设计领域的专业力量,推动自研芯片技术的进一步发展。 微新创想:该团队专注于芯片设计,特别是针对云端场景开发多款基于先进工艺的专用芯片。这些芯片的研发目标是显著提升算力性能,同时有效降低用户的使用成本。 微新创想:目前,多个芯片项目已经成功完成第一版流片,并进入量产部...
19:31
微新创想:2026年2月14日前,四川道孚—新都桥、广元火电两项500千伏输变电工程顺利投运。这两项工程由国网四川省电力公司建设,分别位于甘孜州和广元市。它们的建成不仅提升了当地的电力供应能力,还为清洁能源的高效接入提供了重要保障。 微新创想:工程主要服务于清洁能源接入与区域供电保障。随着四川地区可再生能源资源的不断开发,这些输变电设施在促进绿色能源并网方面...
19:31
微新创想:2026年2月14日 北京市住建委发布2026年首批城市更新计划项目清单 本次共纳入项目1321个 包括新实施项目745个以及2025年结转续建项目576个 年度计划投资总额达到1049.5亿元 项目覆盖了北京市所有行政区域 重点聚焦在老旧小区的改造 低效楼宇的升级以及街区环境的提升等方面 此次城市更新计划的实施 目的是为了更好地服务首都的高质量发...
19:00
微新创想:2026年2月13日,苹果美国官网正式下线iWork独立介绍页。访问该链接将重定向至通用的“Apple Apps”页面。这一变动标志着苹果正式结束以“iWork”品牌统称Pages、Numbers和Keynote三款办公应用的历史。未来,这三款应用的相关介绍将被整合进“生产力”板块,同时同步推广Creator Studio。 苹果此举表明其正在逐步...
19:00
微新创想:2025年8月,安全研究员Eaton Zveare发现印度达瓦药房(DavaIndia Pharmacy)后台存在一个未加防护的超级管理员API接口 该漏洞自2024年末起一直保持开放状态,未被及时发现和处理 攻击者利用此漏洞可以创建具有高权限的账户,进而访问大量敏感信息 受影响的订单数据包含客户的姓名、联系方式、地址以及药品详情等重要信息 此外,...
19:00
微新创想:2026年2月13日,OpenAI宣布为Codex、Sora等产品上线全新计费引擎。这一更新标志着OpenAI在服务管理与用户体验方面迈出了重要一步。新系统不仅整合了速率限制、实时用量追踪和信用点数扣减功能,还引入了更加智能的支付机制。 微新创想:用户在达到使用上限后,系统将自动切换至信用支付模式,从而避免了传统计费方式中常见的‘强制中断’问题。这...
19:00
微新创想:2026年2月14日,全球第二大黄金生产商Agnico Eagle Mines首席执行官Ammar Al-Joundi表示,公司财务稳健、运营高效,已准备好在出现合适机会时推进并购活动。这一表态显示出Agnico Eagle Mines在战略方向上的重要转变。 微新创想:过去多年,Agnico Eagle Mines主要致力于内生增长,通过优化现有...
19:00
微新创想:2026年2月14日,据公开报道,前微软必应搜索负责人兼前Win11开发团队主管米哈伊尔·帕拉申科披露,微软在Windows 11中移除垂直任务栏功能。这一决定是为了贯彻“对称美学”的UI设计原则。 开始菜单被设计为居中布局,左侧用于承载信息流与小组件,右侧则定义为系统控制区。这种布局方式强调了界面的平衡感和视觉统一性。而垂直任务栏由于与左右分区的...
17:27
微新创想 今日字节跳正式发布豆包大模型2.0(Doubao-Seed-2.0)系列。此前,字节跳已推出Seedance 2.0视频模型和Seedream 5.0 Lite图像模型,此次豆包大模型2.0的发布进一步完善了其大模型产品矩阵。豆包2.0是针对大规模生产环境进行系统性优化的版本,旨在更好地完成真实世界的复杂任务,提升用户体验和应用效率。 目前豆包2....
17:27
微新创想 在当前AI技术迅猛发展的背景下,越来越多的职场人士开始感受到来自人工智能的潜在威胁。这种焦虑情绪在各行各业中蔓延,尤其在白领群体中表现得更为明显。微软人工智能部门CEO穆斯塔法苏莱曼近日在接受《金融时报》专访时,对AI的未来发展做出了大胆预测。他指出,未来12到18个月内,许多白领工作将被人工智能完全自动化,这一趋势已经初现端倪 苏莱曼特别提到...
17:27
微新创想 腾讯旗下光子工作室群近日发布了2026年校园招聘信息,面向两款全新3A大作项目招募人才。此次招聘主要面向策划类和美术类岗位,均提供转正机会,工作地点涵盖广州和深圳。招聘信息显示,光子R工作室正在积极拓展其在游戏开发领域的影响力,吸引更多有才华的年轻开发者加入。 《雪中悍刀行》是一款定位为3A双端武侠动作游戏的作品,基于同名现象级网络小说改编。该游戏...