今日,我们荣幸宣布正式推出 Ring-mini-2.0,这是一款基于 Ling-mini-2.0 架构深度优化的高性能推理型 MoE 模型。Ring-mini-2.0 拥有高达 16B 的总参数量,但在实际运行中仅需激活 1.4B 参数,便能展现出相当于 10B 级别以下密集模型的强大推理能力。这款模型在逻辑推理、编程和数学任务中表现卓越,支持长达 128K 的长上下文处理,使其在各种应用场景中都能发挥出惊人的潜力。更令人惊叹的是,Ring-mini-2.0 的生成速度也相当惊人,基础版本即可实现 300+ token/s 的快速生成,经过进一步优化后更是能够突破 500+ token/s 的极限。
图源备注:图片由 AI 生成,授权服务商 Midjourney
在推理能力的提升方面,Ring-mini-2.0 在 Ling-mini-2.0-base 的基础上进行了更深层次的训练。通过 Long-COT SFT、大规模 RLVR 和 RLHF 的联合优化,这款模型在复杂推理任务中的稳定性和泛化能力得到了显著增强。我们在多个高难度基准测试中发现,其性能不仅显著超越了 10B 以下的密集模型,甚至可以与一些更大型的 MoE 模型相媲美,尤其是在逻辑推理方面表现尤为出色。
此外,Ring-mini-2.0 在设计上注重高效性。通过 1/32 的专家激活比和 MTP 层架构优化,实现了约 7-8B 密集模型的等效性能。这种高稀疏度和小激活设计,使得其在 H20 环境下能够实现 300+ token/s 的推理速度,同时结合 Expert Dual Streaming 的优化,进一步降低了推理成本,为用户带来极致的效率体验。
为了促进学术与工业界的研究和应用,我们决定全面开源 Ring-mini-2.0 的模型权重、训练策略和数据配方。我们期待这款“小而优”的模型能够成为小型推理模型的首选,并诚挚邀请各位开发者访问我们的开源仓库进行下载和使用。未来,在 Ling2.0 架构的持续支持下,我们将继续推出更大、更快、更强的语言模型和全模态模型,敬请期待!