
Moonshot AI 今日在 Hugging Face 平台正式发布重磅技术报告《Kimi Linear Tech Report》(完整报告链接:https://huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct),正式推出革命性全新架构 Kimi Linear。这一创新架构能够直接替代传统的完全注意力机制(Full Attention),在兼顾高效性与卓越性能的同时,为智能体时代的注意力机制发展开辟了全新起点。根据报告数据,Kimi Linear 在速度、内存效率及长上下文处理能力三大维度均实现突破性进展。
报告揭示,Kimi Linear 架构通过三项核心技术创新,显著优化了模型性能。首先,Delta Attention 采用硬件高效的线性注意力机制,通过门控 Delta 规则优化结构设计,在性能与能耗之间实现完美平衡。其次,Linear Architecture 作为首个全面超越传统完全注意力机制的混合线性架构,在速度与模型表达能力上实现双重突破。最后,Moonshot AI 建立了开放生态体系,提供开源 KDA 内核、vLLM 集成支持及完整模型检查点,并通过大规模公平对比实验验证了 Kimi Linear 的稳定性与可扩展性。

具体性能表现方面,Kimi Linear 架构将 KV 缓存使用量减少高达75%,同时在100万(1M)上下文长度下实现高达6倍的解码吞吐量提升。这一突破性成果显著优化了长文本推理和多轮对话性能,为智能助手、多模态生成等应用场景提供了强大支持。Moonshot AI 强调,Kimi Linear 不仅是架构层面的创新,更是为智能体(AI Agent)时代量身定制的基础机制。随着线性注意力技术的持续成熟,其有望成为下一代智能模型的标准配置,引领长上下文推理、智能助手等领域的革新浪潮。
