
蚂蚁百灵大模型团队近日重磅发布其最新开源成果——高效推理模型 Ring-mini-sparse-2.0-exp,为长序列解码任务带来革命性突破。该模型基于先进的 Ling2.0 架构,通过创新性的稀疏注意力机制,在长序列推理场景中实现了卓越性能。团队将高稀疏比的 Mixture of Expert(MoE)结构与稀疏注意力机制巧妙融合,构建出这一专为复杂长序列推理优化的新架构。得益于架构与推理框架的深度协同设计,Ring-mini-sparse-2.0-exp 在处理长序列时的吞吐量较前代 Ring-mini-2.0 实现了近三倍的飞跃。在多个高难度推理基准测试中,该模型持续保持 SOTA(State of the Art)水平,充分展现了其强大的上下文处理能力与高效推理性能,为开源社区贡献了极具价值的轻量化解决方案。
Ling2.0Sparse 架构的设计理念聚焦于应对大语言模型发展中的两大核心趋势:上下文长度的持续扩展与测试规模的动态增长。团队在 Mixture of Block Attention(MoBA)的启发下,创新性地采用块级稀疏注意力(block-wise sparse attention)机制。该机制将输入的 Key 和 Value 按块划分,每个 query 在 head 维度上进行 top-k 块选择,仅对选中的块执行 softmax 计算,从而显著降低计算开销。更值得一提的是,团队将 MoBA 设计与 Grouped Query Attention(GQA)技术相结合,实现同一组内 query heads 共享 top-k 块选择结果,进一步优化了 I/O 效率。这一系列创新设计使得 Ring-mini-sparse-2.0-exp 在保持高性能的同时,实现了前所未有的推理效率。

GitHub:https://github.com/inclusionAI/Ring-V2/tree/main/moba
划重点:
🌟 新模型 Ring-mini-sparse-2.0-exp 在长序列推理中表现卓越,吞吐量实现近三倍提升。
🔍 该模型融合创新稀疏注意力机制,完美平衡高效推理与上下文处理能力。
📥 模型已在多个平台全面开源,为社区提供丰富的应用与研究资源。
