2025年9月19日,小米正式向全球开发者社区宣布其开源首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这一重要举措标志着小米在人工智能领域的技术突破,为语音交互技术发展注入了全新活力。该模型基于业界领先的创新预训练架构,通过海量数据训练实现卓越性能,成为语音技术领域的重要里程碑。
MiMo-Audio模型依托超过上亿小时的高质量训练数据,在技术架构上实现了多项创新突破。特别值得一提的是,该模型首次在语音领域成功实现基于ICL(Instance Consistent Learning)的少样本泛化能力,这一技术突破使模型在资源有限的情况下仍能保持高水准性能。研发团队观察到模型在训练过程中展现出明显的”涌现”行为,即随着训练深入,模型性能呈现非线性增长,远超预期水平,这一现象为语音大模型发展提供了全新思路。
在专业评测方面,MiMo-Audio模型表现出色。在7B参数量级别下,其性能显著优于同规模的开源语音模型,展现出强大的技术竞争力。更令人瞩目的是,该模型在MMAU基准测试中超越了业界领先模型Google Gemini-2.5-Flash,这一突破性成果使小米MiMo-Audio跻身全球顶尖语音模型的行列。在Big Bench Audio S2T(语音到文本)任务中,MiMo-Audio同样表现优异,其性能优于GPT-4o-Audio-Preview等前沿模型,充分证明了该模型在实际应用中的强大能力。
此次开源不仅体现了小米推动人工智能技术发展的决心,也为全球开发者提供了宝贵的技术资源。MiMo-Audio模型的开放将加速语音技术的创新应用,为智能家居、智能客服、语音助手等领域带来更多可能性。随着技术的不断演进,我们有理由相信,小米MiMo-Audio将在未来人工智能生态中扮演重要角色,推动整个语音技术领域迈向新高度。