小米开源端到端语音大模型Xiaomi-MiMo-Audio引领技术革新

2025-09-19 09:58:00 快讯 18 次阅读

2025年9月19日，小米正式向全球开发者社区宣布其开源首个原生端到端语音大模型——Xiaomi-MiMo-Audio。这一重要举措标志着小米在人工智能领域的技术突破，为语音交互技术发展注入了全新活力。该模型基于业界领先的创新预训练架构，通过海量数据训练实现卓越性能，成为语音技术领域的重要里程碑。

MiMo-Audio模型依托超过上亿小时的高质量训练数据，在技术架构上实现了多项创新突破。特别值得一提的是，该模型首次在语音领域成功实现基于ICL（Instance Consistent Learning）的少样本泛化能力，这一技术突破使模型在资源有限的情况下仍能保持高水准性能。研发团队观察到模型在训练过程中展现出明显的”涌现”行为，即随着训练深入，模型性能呈现非线性增长，远超预期水平，这一现象为语音大模型发展提供了全新思路。

在专业评测方面，MiMo-Audio模型表现出色。在7B参数量级别下，其性能显著优于同规模的开源语音模型，展现出强大的技术竞争力。更令人瞩目的是，该模型在MMAU基准测试中超越了业界领先模型Google Gemini-2.5-Flash，这一突破性成果使小米MiMo-Audio跻身全球顶尖语音模型的行列。在Big Bench Audio S2T（语音到文本）任务中，MiMo-Audio同样表现优异，其性能优于GPT-4o-Audio-Preview等前沿模型，充分证明了该模型在实际应用中的强大能力。

此次开源不仅体现了小米推动人工智能技术发展的决心，也为全球开发者提供了宝贵的技术资源。MiMo-Audio模型的开放将加速语音技术的创新应用，为智能家居、智能客服、语音助手等领域带来更多可能性。随着技术的不断演进，我们有理由相信，小米MiMo-Audio将在未来人工智能生态中扮演重要角色，推动整个语音技术领域迈向新高度。

2026年02月14日

19:31

小米开源端到端语音大模型Xiaomi-MiMo-Audio引领技术革新

最新快讯

2026年02月14日

《飞驰人生3》预售票房破亿创国产喜剧新高

字节跳动启动芯片团队大规模招聘自研云端芯片加速量产部署

四川500千伏电网工程春节前投运助力清洁能源消纳与保电任务

北京2026年首批城市更新项目清单发布投资超千亿元聚焦老旧小区改造

苹果美国官网下线iWork专属页面整合至生产力板块

印度达瓦药房超级管理员接口未鉴权漏洞曝光及修复情况

OpenAI推出新计费引擎实现无缝信用支付升级

Agnico Eagle CEO表态：黄金并购交易将助力资源储备与长期产能提升

微软前Win11负责人揭秘垂直任务栏被弃用的真实原因

字节跳动豆包大模型2.0上线专家模式展现世界顶尖数学与推理能力

微软AI CEO预测未来18个月大量白领工作将被人工智能取代

腾讯2026校园招聘启动两大3A大作《雪中悍刀行》《剑来》招贤纳士