蚂蚁百灵大模型团队近日重磅宣布,正式向全球开源两款突破性的高效思考模型:Ring-flash-linear-2.0与Ring-mini-linear-2.0。这两款模型专为深度推理场景量身打造,通过创新的架构设计与算法优化,实现了前所未有的推理效率。与此同时,团队还发布了自主研发的两款高性能融合算子——FP8融合算子与线性Attention推理融合算子,为”大参数、低激活”的高效推理模式提供了坚实的技术支撑,并支持超长上下文处理能力。
根据团队详细技术说明,得益于架构层面的深度优化与高性能算子的协同工作,这两款新模型在深度推理场景下的计算成本仅为同等规模密集模型的十分之一,较之前的Ring系列模型更是实现了超过50%的推理成本降低。这一显著突破意味着,用户在进行复杂推理任务时,能够大幅减少计算资源消耗,从而显著提升工作效率与处理能力。
除了成本优势外,新模型另一个核心竞争力在于训练与推理引擎算子的高度对齐。这种对齐机制使得模型在强化学习阶段能够进行长周期、稳定且高效的优化,确保模型在多个高难度推理榜单中持续保持顶尖表现(SOTA)。这一技术优势为需要进行复杂推理任务的用户提供了更加强大、可靠的AI工具支持。
作为开放源代码项目,Ring-flash-linear-2.0和Ring-mini-linear-2.0已在Hugging Face和ModelScope等主流平台上正式发布。开发者们可以便捷地获取这些模型的信息,并进行实际应用尝试。此次开源不仅彰显了蚂蚁百灵大模型团队在人工智能领域的领先技术实力,更为广大开发者提供了前所未有的高效工具,有望在未来AI开发与研究中催生更多创新突破。