小米开源原生端到端语音大模型Xiaomi-MiMo-Audio引领语音AI新突破

2025-09-19 09:58:16 AI动态 67 次阅读

9月19日，小米公司正式宣布开源其自主研发的首个原生端到端语音大模型——Xiaomi-MiMo-Audio，这一里程碑式的成果标志着语音技术领域迎来了划时代的突破。五年前，GPT-3的横空出世开启了通用人工智能（AGI）的新纪元，然而语音领域始终受限于对大规模标注数据的依赖，难以实现类似语言模型的少样本泛化能力。如今，小米凭借其创新性的预训练架构和上亿小时的训练数据，成功在语音领域实现了基于 In-Context Learning（ICL）的少样本泛化，并在预训练过程中首次观察到显著的“涌现”现象。

Xiaomi-MiMo-Audio 模型在多个权威评测基准中展现出卓越性能，不仅超越了同参数量的开源模型，更在音频理解基准 MMAU 的标准测试集上超越了 Google 的闭源语音模型 Gemini-2.5-Flash，同时在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的闭源语音模型 GPT-4o-Audio-Preview。这一系列突破不仅彰显了小米在语音技术领域的深厚积累，更为语音 AI 的发展指明了新的方向。

小米此次开源的 Xiaomi-MiMo-Audio 模型包含多项创新性突破。首先，该模型首次证实将语音无损压缩预训练扩展至1亿小时能够“涌现”出跨任务的泛化性，表现为少样本学习能力，这一成就被视为语音领域的“GPT-3时刻”。其次，小米作为首个明确语音生成式预训练目标与定义的公司，开源了一套完整的语音预训练方案，包括无损压缩的 Tokenizer、全新模型结构、训练方法及评测体系，由此开启了语音领域的“LLaMA时刻”。此外，Xiaomi-MiMo-Audio 是首个将思考过程同时融入语音理解和语音生成过程中的开源模型，支持混合思考模式。

小米采取了简洁、彻底且直接的开源策略，旨在加速语音研究领域的快速发展。开源内容涵盖预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct，以及 Tokenizer 模型、技术报告和评估框架。MiMo-Audio-7B-Instruct 模型可通过 prompt 切换 non-thinking 和 thinking 两种模式，强化学习起点高、潜力巨大，可作为研究语音 RL 和 Agentic 训练的全新基座模型。Tokenizer 模型拥有1.2B参数量，采用 Transformer 架构，兼顾效率与性能，通过从头开始训练覆盖超过千万小时语音数据，同时支持音频重建任务和音频转文本任务。技术报告全面展示了模型和训练细节，而评估框架则支持10多个测评任务，已开源至 GitHub。

小米公司表示，Xiaomi-MiMo-Audio 的开源将显著加速语音大模型研究对齐到语言大模型，为语音 AGI 的发展奠定重要基础。小米将持续推进开源进程，期待与每一位同行者携手，以开放与协作的姿态，迈向语音 AI 的“奇点”，共同走进未来的人机交互时代。https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct

2025年11月28日

21:06

小米开源原生端到端语音大模型Xiaomi-MiMo-Audio引领语音AI新突破

最新快讯

2025年11月28日

滨崎步上海演唱会取消全额退款30日内到账

利君控股签下5760万美元设备出口大单创收超半成业绩将迎增长

东宏股份中标5109万元HDPE管项目提升区域排水能力

霸王茶姬Q3财报：门店7338家GMV79.3亿净利32.08亿

贵州茅台1.22亿升级供电系统提升生产安全保障

中芯国际终止出售中芯宁波股权交易协议

长安汽车2.25亿设机器人公司聚焦智能人形机器人技术

Instagram推出本地化翻译功能助力创作者拓展国际影响力

安世中国要求荷兰方就控制权磋商恢复供应供应链稳定

振石集团计划增持中国巨石5.5亿至11亿显信心

中国信通院建议细化数据容错免责办法激发要素活力

胜科纳米5亿投建青岛检测项目提升半导体检测分析能力