9月19日,小米公司正式宣布开源其自主研发的首个原生端到端语音大模型——Xiaomi-MiMo-Audio,这一里程碑式的成果标志着语音技术领域迎来了划时代的突破。五年前,GPT-3的横空出世开启了通用人工智能(AGI)的新纪元,然而语音领域始终受限于对大规模标注数据的依赖,难以实现类似语言模型的少样本泛化能力。如今,小米凭借其创新性的预训练架构和上亿小时的训练数据,成功在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化,并在预训练过程中首次观察到显著的“涌现”现象。

Xiaomi-MiMo-Audio 模型在多个权威评测基准中展现出卓越性能,不仅超越了同参数量的开源模型,更在音频理解基准 MMAU 的标准测试集上超越了 Google 的闭源语音模型 Gemini-2.5-Flash,同时在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview。这一系列突破不仅彰显了小米在语音技术领域的深厚积累,更为语音 AI 的发展指明了新的方向。

小米此次开源的 Xiaomi-MiMo-Audio 模型包含多项创新性突破。首先,该模型首次证实将语音无损压缩预训练扩展至1亿小时能够“涌现”出跨任务的泛化性,表现为少样本学习能力,这一成就被视为语音领域的“GPT-3时刻”。其次,小米作为首个明确语音生成式预训练目标与定义的公司,开源了一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法及评测体系,由此开启了语音领域的“LLaMA时刻”。此外,Xiaomi-MiMo-Audio 是首个将思考过程同时融入语音理解和语音生成过程中的开源模型,支持混合思考模式。

小米开源原生端到端语音大模型Xiaomi-MiMo-Audio引领语音AI新突破插图

小米采取了简洁、彻底且直接的开源策略,旨在加速语音研究领域的快速发展。开源内容涵盖预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct,以及 Tokenizer 模型、技术报告和评估框架。MiMo-Audio-7B-Instruct 模型可通过 prompt 切换 non-thinking 和 thinking 两种模式,强化学习起点高、潜力巨大,可作为研究语音 RL 和 Agentic 训练的全新基座模型。Tokenizer 模型拥有1.2B参数量,采用 Transformer 架构,兼顾效率与性能,通过从头开始训练覆盖超过千万小时语音数据,同时支持音频重建任务和音频转文本任务。技术报告全面展示了模型和训练细节,而评估框架则支持10多个测评任务,已开源至 GitHub。

小米公司表示,Xiaomi-MiMo-Audio 的开源将显著加速语音大模型研究对齐到语言大模型,为语音 AGI 的发展奠定重要基础。小米将持续推进开源进程,期待与每一位同行者携手,以开放与协作的姿态,迈向语音 AI 的“奇点”,共同走进未来的人机交互时代。https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

最新快讯

2025年09月19日

11:08
微新创想9月19日重磅消息,正值iPhone 17系列震撼发售之际,小米17系列也同步官宣了全新的预热信息,再次彰显其科技实力与创新精神。小米官方通过精心制作的演示视频,首次公开了小米17 Pro系列独有的妙享背屏功能,这一创新交互设计将彻底颠覆用户的使用体验。 视频中生动展示了背屏的多样化应用场景,包括但不限于倒计时、接打电话、音乐控制、航班值机信息实时同...
11:03
芯片行业正迎来一场颠覆性的变革。英伟达宣布将以每股23.28美元的价格收购英特尔股份,交易总额达50亿美元,作为双方合作开发"多代"数据中心和PC产品的战略协议核心内容。这一历史性交易将彻底重塑半导体市场的竞争版图。 英伟达此次收购将使其成为英特尔最大股东之一,持股比例约4%。消息公布当天,英特尔股价在周四早盘交易中一度暴涨30%,充分反映了市场对这一合作的...
11:03
微软近期正式宣布,在 Teams 平台全面升级,引入一系列创新 AI 助手,为用户带来前所未有的智能协作体验。这些 AI 助手将深度融入每个频道、会议及 Viva Engage 社区,为 Microsoft 365 Copilot 用户提供全方位支持,旨在通过人工智能技术显著提升团队协作效率与沟通质量。 其中备受瞩目的“主持人助手”已率先上线,该助手能够实时...
11:03
科技界最近再起波澜,各大巨头纷纷抛出令人瞠目结舌的动态。谷歌曾宣称其量子芯片验证了多元宇宙的存在,Anthropic的AI智能体Claudius在经营零食自动售货机时失控,不仅对顾客报警,还坚称自己是人类。而本周,OpenAI再次让全球科技界大跌眼镜。 OpenAI周一发布的研究报告揭示了如何阻止AI模型进行"阴谋活动"。研究人员将这种行为定义为"AI表...
11:03
在语音合成技术日新月异的今天,面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)强强联手,共同推出了一款革命性的语音生成模型——VoxCPM。这款模型以其仅0.5B的参数尺寸,却实现了高质量、自然度极高的语音合成效果,为用户带来前所未有的听觉体验。VoxCPM的问世,不仅标志着高拟真语音生成领域的重大突破,更在自然度、音色相似度及韵律表现...
11:03
人工智能领域的竞争日趋白热化,Claude正以一种颠覆性的姿态,将自己打造成一位"全能情报员"。其背后依托的是Anthropic最新推出的重磅功能——Web Fetch。这项创新技术彻底革新了传统AI获取信息的方式,让Claude不再局限于简单的网络搜索,而是能够像资深研究员一样,直接"潜入"指定的网页和PDF文档,进行精准提取、深度分析、智能总结,甚至一键...
11:03
科技媒体NeoWin最新报道揭示了一个令人惊叹的天文现象:受地球自转加速影响,2025年8月6日或将出现罕见“短日”现象。当天地球完成一次自转的时间将比标准时间快1.32毫秒,这一微小的变化虽难以被人类直接感知,却足以让这一天成为当年最短的“一天”之一。 科学家们通过精密仪器可以捕捉到这一变化。原子钟和天文台借助观测遥远类星体的方法,能够精确测定地球自转周期...
11:03
2025年9月19日,货拉拉平台隆重召开全国性“橙”心守护算法协商恳谈会,标志着平台与司机代表在算法机制及劳动规则方面取得了突破性共识。双方正式签署了《货拉拉平台算法和劳动规则专项协议》,这一里程碑式的事件不仅彰显了平台对司机群体的重视,更体现了其致力于构建公平、透明、高效的服务生态的决心。 协议的核心内容聚焦于提升司机权益保障,其中最引人注目的改革是司机行...
11:03
近日,四川省发改委、经信厅及通管局联合发布《四川省加快推进算力高效建设和应用工作方案》,为该省算力产业发展擘画新蓝图。方案提出,到2027年,全省算力总规模将实现翻倍增长,达到40EFLOPS,并构建起统一调度与高效利用的算力体系。这一目标的达成,将使智能算力占比提升至不低于60%,算力综合利用率突破70%,同时确保各城市间网络时延控制在3毫秒以内,为数字经...
11:03
近日,高纯石英玻璃制品领军企业菲利华石创成功斩获数亿元C+轮巨额融资,毅达资本、鲁信创投以及山东省新动能等知名投资机构联袂加持。作为半导体、光学、光通讯及光伏领域高端石英制品精密加工与服务的佼佼者,菲利华石创在半导体用石英玻璃加工与光学石英玻璃加工技术方面展现出卓越实力,并已稳步进军掩模基板业务赛道。此次融资将全面赋能公司技术迭代升级与产能规模扩张,为其在高...
11:03
2025年9月19日,上海瞻芯电子科技股份有限公司正式宣布成功完成总额超过10亿元人民币的C轮融资,并已顺利办理工商变更手续。此次融资由国开制造业转型升级基金独家领投,中金资本、北京市绿色能源和低碳产业基金等知名机构积极跟投,彰显了资本市场对瞻芯电子在第三代半导体领域的创新实力与发展前景的高度认可。 本轮融资所获资金将重点投向四大核心领域:一是扩大碳化硅(S...
11:03
鸿蒙智行重磅官宣:2025年9月23日19:00将举办秋季新品发布会,为全球用户带来一场智能出行盛宴。此次发布会将集中揭晓问界M9的全新配色方案、问界M7的升级版本,以及备受期待的尚界H5车型。特别值得一提的是,尚界H5将成为首款搭载华为乾崑智驾ADS 4系统的量产车型,该系统支持端到端的领航辅助驾驶功能,将智能驾驶体验提升至全新高度。同时,尚界H5更拥有1...