9月19日,小米公司正式宣布开源其自主研发的首个原生端到端语音大模型——Xiaomi-MiMo-Audio,这一里程碑式的成果标志着语音技术领域迎来了划时代的突破。五年前,GPT-3的横空出世开启了通用人工智能(AGI)的新纪元,然而语音领域始终受限于对大规模标注数据的依赖,难以实现类似语言模型的少样本泛化能力。如今,小米凭借其创新性的预训练架构和上亿小时的训练数据,成功在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化,并在预训练过程中首次观察到显著的“涌现”现象。

Xiaomi-MiMo-Audio 模型在多个权威评测基准中展现出卓越性能,不仅超越了同参数量的开源模型,更在音频理解基准 MMAU 的标准测试集上超越了 Google 的闭源语音模型 Gemini-2.5-Flash,同时在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview。这一系列突破不仅彰显了小米在语音技术领域的深厚积累,更为语音 AI 的发展指明了新的方向。

小米此次开源的 Xiaomi-MiMo-Audio 模型包含多项创新性突破。首先,该模型首次证实将语音无损压缩预训练扩展至1亿小时能够“涌现”出跨任务的泛化性,表现为少样本学习能力,这一成就被视为语音领域的“GPT-3时刻”。其次,小米作为首个明确语音生成式预训练目标与定义的公司,开源了一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法及评测体系,由此开启了语音领域的“LLaMA时刻”。此外,Xiaomi-MiMo-Audio 是首个将思考过程同时融入语音理解和语音生成过程中的开源模型,支持混合思考模式。

小米开源原生端到端语音大模型Xiaomi-MiMo-Audio引领语音AI新突破插图

小米采取了简洁、彻底且直接的开源策略,旨在加速语音研究领域的快速发展。开源内容涵盖预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct,以及 Tokenizer 模型、技术报告和评估框架。MiMo-Audio-7B-Instruct 模型可通过 prompt 切换 non-thinking 和 thinking 两种模式,强化学习起点高、潜力巨大,可作为研究语音 RL 和 Agentic 训练的全新基座模型。Tokenizer 模型拥有1.2B参数量,采用 Transformer 架构,兼顾效率与性能,通过从头开始训练覆盖超过千万小时语音数据,同时支持音频重建任务和音频转文本任务。技术报告全面展示了模型和训练细节,而评估框架则支持10多个测评任务,已开源至 GitHub。

小米公司表示,Xiaomi-MiMo-Audio 的开源将显著加速语音大模型研究对齐到语言大模型,为语音 AGI 的发展奠定重要基础。小米将持续推进开源进程,期待与每一位同行者携手,以开放与协作的姿态,迈向语音 AI 的“奇点”,共同走进未来的人机交互时代。https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

最新快讯

2026年02月14日

17:27
微新创想 今日字节跳正式发布豆包大模型2.0(Doubao-Seed-2.0)系列。此前,字节跳已推出Seedance 2.0视频模型和Seedream 5.0 Lite图像模型,此次豆包大模型2.0的发布进一步完善了其大模型产品矩阵。豆包2.0是针对大规模生产环境进行系统性优化的版本,旨在更好地完成真实世界的复杂任务,提升用户体验和应用效率。 目前豆包2....
17:27
微新创想 在当前AI技术迅猛发展的背景下,越来越多的职场人士开始感受到来自人工智能的潜在威胁。这种焦虑情绪在各行各业中蔓延,尤其在白领群体中表现得更为明显。微软人工智能部门CEO穆斯塔法苏莱曼近日在接受《金融时报》专访时,对AI的未来发展做出了大胆预测。他指出,未来12到18个月内,许多白领工作将被人工智能完全自动化,这一趋势已经初现端倪 苏莱曼特别提到...
17:27
微新创想 腾讯旗下光子工作室群近日发布了2026年校园招聘信息,面向两款全新3A大作项目招募人才。此次招聘主要面向策划类和美术类岗位,均提供转正机会,工作地点涵盖广州和深圳。招聘信息显示,光子R工作室正在积极拓展其在游戏开发领域的影响力,吸引更多有才华的年轻开发者加入。 《雪中悍刀行》是一款定位为3A双端武侠动作游戏的作品,基于同名现象级网络小说改编。该游戏...
17:24
微新创想:2月14日,字节跳动宣布拟将旗下游戏公司沐瞳科技出售给沙特公共投资基金(PIF)旗下的Savvy Games Group。根据相关消息,交易金额超过60亿美元,约合414.52亿元人民币。此次交易预计将在2026年2月签署股权收购协议(SPA)。 此次出售是字节跳动在全球游戏业务布局上的一项重要战略调整。通过出售沐瞳科技,字节跳动可以进一步集中...
17:24
微新创想:2025年12月12日,云存储服务商Backblaze公布了年度机械硬盘可靠性数据。此次数据涵盖截至2025年底的硬盘监控情况,总计监控硬盘数量达到341,664块,其中337,192块被纳入统计分析。统计范围内包含了30个不同型号的硬盘,所有型号均出现了故障案例。然而整体年化故障率(AFR)仅为1.30%,这是自2022年以来的最低水平。 微新创...
17:24
微新创想:2026年2月14日 微信官方公众号“微信派”发布播客 微信支付产品经理“飞哥”就红包规则答疑 针对近期用户对红包规则的诸多疑问 飞哥在播客中进行了详细解答 单个红包上限设置为200元 是出于对用户体验的考量 飞哥表示这一限制旨在保持红包活动的趣味性 同时避免给用户带来过大的心理压力 关于“第二位手气最佳”“网速影响金额”等传闻 飞哥明确指出 红包...
17:24
微新创想:2月14日,京东集团向全球90万名员工发布新春贺信。信中明确,未来三年将持续加大人工智能领域投入,目标带动形成万亿规模AI生态。京东强调国际化是必选项,将依托全球供应链能力建设,推进具备独特竞争力的出海战略。此举旨在强化技术驱动与全球化双轮发展,提升长期增长动能。
17:24
微新创想:2026年2月14日,Infosys宣布扩大与埃克森美孚的战略合作,共同开发并部署后者数据中心浸没式冷却液系列产品。此次合作覆盖全球数据中心项目,标志着双方在数据中心能效优化领域的深度协同。 双方将整合埃克森美孚的冷却液技术、Infosys Topaz以及Infosys Cobalt平台,共同打造更加高效的数据中心冷却解决方案。通过这一整合,他们希...
17:24
微新创想:2026年2月14日,微软宣布主动封堵一种Windows PC登录验证机制,影响所有受支持的Windows 10和Windows 11版本。这一变动引发了广泛的关注,尤其是在技术社区中。 同日,用户报告Windows Insider Canary通道(v28020.1611)及Server预览版(v29531)ISO文件下载失败,错误代码715-1...
17:24
微新创想:2026年2月14日,工信部等三部门印发《酿酒产业提质升级指导意见(2026—2030年)》。文件提出,鼓励酿酒企业、装备制造企业和科研机构共建酿酒技术装备创新应用联合体,聚焦高精度传感器、智能温控系统、高效膜分离系统等核心部件攻关,并加快余热回收装置、MVR蒸发系统、自动上甑机器人及高速灌装设备等先进装备研发与应用。 微新创想:同时,支持企业通过...
16:53
微新创想:2月14日消息,除夕的烟花尚未绽放,AI战场早已硝烟弥漫。2026年马年春节,表面上是百度5亿、腾讯元宝10亿红包、阿里30亿免单的混战,实则是国产大模型阵营一次史无前例的“集体亮剑”。从腊月二十开始,字节、智谱、MiniMax、Kimi扔出王炸,DeepSeek悄无声息地完成了关键迭代,阿里Qwen3.5箭在弦上,百度O计划秘而不宣,腾讯则请来姚...
16:53
微新创想 近日,广东佛山禅城区一家餐饮店的老板吴先生在网上发布求助信息,称有一位顾客在五年内累计点了2000多次外卖,相当于每天至少点一次。然而,去年这位顾客突然消失,再未下单。吴先生猜测这位顾客可能搬家了或者换了工作,希望可以联系到他,报个平安。 吴先生的店里特意留了一把贴有“外卖老友专座”标签的椅子,以示对这位忠实顾客的重视和欢迎。他表示,曾经尝试通...