
微新创想:同样的算力与数据,凭什么有的模型效果更好
月之暗面(Moonshot AI)给出了一个直击底层逻辑的答案

3月16日,Kimi发布重磅技术报告《Attention Residuals》(注意力残差)
该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接(Residual Connections)进行了彻底重构
实验证明在相同算力下新方法训练出的模型效果等同于基线模型花费1.25倍算力达成的水平
这一突破迅速引发硅谷AI圈震动在社交媒体公开评价其为“令人印象深刻的工作(Impressive work from Kimi)”

Jerry Tworek(OpenAI o1主要发明者)称其为“深度学习2.0”的开端
Andrej Karpathy(前OpenAI联创)感慨行业对“Attention is All You Need”的理解仍有挖掘空间
为何要动“祖传地基”
传统的残差连接虽然解决了深层网络难以训练的问题但其“等权相加”的方式过于粗暴
随着网络加深每一层的新贡献极易被庞大的累积信息淹没导致大量中间层沦为“无效干活”

Kimi的“优雅旋转”
团队发现深度方向上的信息丢失与RNN在时间维度上的遗忘在数学结构上高度一致
于是他们将原本用于处理文字序列的“注意力机制”横向转动90度应用到了纵向的深度维度上
通过这一创新每一层不再是被动接受叠加信息而是通过一个微小的“查询向量”
主动有选择性地决定从前面哪些层提取多少信息

为了解决大规模训练中的内存开销团队还创新性地提出了Block AttnRes方案
将网络划分为若干块在确保性能的同时将推理延迟增量控制在2%以内
在实验中该架构展现了极强的泛化能力
在GPQA-Diamond科学推理任务上实现了7.5%的飞跃数学与代码生成任务也分别获得了3.6%和3.1%的显著增益
正如创始人在GTC2026演讲中所言行业正逐渐遭遇Scaling的瓶颈
必须对优化器残差连接等底层基石进行重构
当大多数人还在“高层精装修”时选择下沉到最深处
用一记重锤撬动了深度学习的未来
