Kimi论文引发AI圈震动:重构残差连接提升模型效率25%

微新创想:同样的算力与数据,凭什么有的模型效果更好
月之暗面(Moonshot AI)给出了一个直击底层逻辑的答案

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图1

3月16日,Kimi发布重磅技术报告《Attention Residuals》(注意力残差)
该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接(Residual Connections)进行了彻底重构

实验证明在相同算力下新方法训练出的模型效果等同于基线模型花费1.25倍算力达成的水平
这一突破迅速引发硅谷AI圈震动在社交媒体公开评价其为“令人印象深刻的工作(Impressive work from Kimi)”

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图2

Jerry Tworek(OpenAI o1主要发明者)称其为“深度学习2.0”的开端
Andrej Karpathy(前OpenAI联创)感慨行业对“Attention is All You Need”的理解仍有挖掘空间

为何要动“祖传地基”
传统的残差连接虽然解决了深层网络难以训练的问题但其“等权相加”的方式过于粗暴
随着网络加深每一层的新贡献极易被庞大的累积信息淹没导致大量中间层沦为“无效干活”

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图3

Kimi的“优雅旋转”
团队发现深度方向上的信息丢失与RNN在时间维度上的遗忘在数学结构上高度一致
于是他们将原本用于处理文字序列的“注意力机制”横向转动90度应用到了纵向的深度维度上

通过这一创新每一层不再是被动接受叠加信息而是通过一个微小的“查询向量”
主动有选择性地决定从前面哪些层提取多少信息

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图4

为了解决大规模训练中的内存开销团队还创新性地提出了Block AttnRes方案
将网络划分为若干块在确保性能的同时将推理延迟增量控制在2%以内

在实验中该架构展现了极强的泛化能力
在GPQA-Diamond科学推理任务上实现了7.5%的飞跃数学与代码生成任务也分别获得了3.6%和3.1%的显著增益

正如创始人在GTC2026演讲中所言行业正逐渐遭遇Scaling的瓶颈
必须对优化器残差连接等底层基石进行重构

当大多数人还在“高层精装修”时选择下沉到最深处
用一记重锤撬动了深度学习的未来

最新快讯

2026年03月19日

11:51
在 AI 领域的“军备竞赛”中,一直被认为动作不大的 ,实际上在不声不响中放了个大招。3 月 19 日, 发文正式回应了 在大模型领域的最新进展。他坦言,小米在 AI 领域一直保持着相对低调的姿态,但低调并不代表没有作为。相反,小米自研的万亿参数大模型 Mimo-V2-Pro 已经悄然跃居世界前列。根据全球权威大模型综合智能排行榜 Artificial A...
11:51
微新创想:Google Labs 正式将其实验性设计工具 Stitch 升级为功能完备的 AI 软件设计平台 该工具允许用户通过自然语言指令直接生成用户界面 谷歌将其核心逻辑称为“氛围设计”(Vibe Design) Stitch 的出现改变了软件开发的起始流程 让非专业人士也能快速上手 无限画布交互 平台提供一个无限延伸的画布 用户可以将图像 文本和代码作...
11:51
微新创想:据《The Information》报道,Meta 公司内部最近发生了一起严重的 AI 智能体“失控”事件。一个原本用于辅助工作的 AI 智能体在未经许可的情况下,意外将公司敏感数据及用户信息暴露给了无权访问的员工,导致 Meta 触发了内部第二高等级的安全警报(Sev 1)。这场安全危机的起因并非黑客攻击,而是源于一次内部技术求助。一名 Meta...
11:51
微新创想:3月18日,Midjourney正式发布其V8模型的早期版本。作为一次重大的架构更新,V8模型在Alpha网站上线后立即引发行业关注。其图像生成速度较前代提升约5倍,显著优化了用户的创作体验。 此次更新引入了原生渲染2K分辨率图像的--hd模式,并新增旨在增强图像连贯性的--q4参数。这些新功能不仅提升了图像的清晰度和细节表现,也增强了模型对复杂场...
11:48
微新创想:3月19日,东方甄选首届供应商交流峰会在北京成功举办,抖音“东方甄选看世界”直播间对活动进行了全程直播。此次峰会是东方甄选首次向外界公开其自营品供应链合作伙伴,标志着品牌在供应链建设上的重要一步。 俞敏洪亲临现场并发表年度主题演讲,深入分享了个人创业经历以及东方甄选坚持品质初心的初衷。他强调,品牌的发展离不开对产品本质的坚守,也离不开与优质供应商的...
11:48
微新创想:3月19日早盘,MMLC电池级碳酸锂中间价报152150元/吨,较前一日下跌2050元/吨。此次调价发生于国内主流锂盐交易市场,反映短期供需关系趋缓及下游采购节奏放缓。价格连续回调主要受终端新能源汽车排产阶段性调整、库存消化周期延长等因素影响。市场观望情绪增强,买卖双方博弈加剧,后续走势将取决于4月排产兑现情况及海外锂资源供应动态。
11:48
微新创想:2026年3月19日,国内黄金饰品价格普遍回落,部分品牌报价跌破1500元/克。市场整体呈现下行趋势,多个主流品牌纷纷调整价格,显示出对当前市场的谨慎态度。 周生生足金饰品每克下调55元,成为当日价格调整幅度最大的品牌。这一变动不仅影响了周生生自身的销售策略,也对整个黄金饰品行业产生了连锁反应。 周大福、六福珠宝、周大生等知名品牌也同步下调了价格,...
11:48
微新创想:2026年3月17日,亚辉龙(SH688575)公告收到深圳监管局行政处罚决定书。经查,该公司于2026年1月6日披露与脑机星链的战略合作信息存在误导性陈述:将尚无样机、未注册的产品描述为已开发产品;后续补充及问询回复亦未准确披露实际研发进展与订单情况。 该行为违反《证券法》相关规定,导致股价异常波动。深圳监管局认为,亚辉龙在信息披露过程中存在重大...
11:47
微新创想:3月13日起 美团旅行联合上海乐高乐园度假区 推出黑金黑钻会员专属游园权益 美团旅行与上海乐高乐园度假区正式宣布合作 从3月13日开始 面向黑金和黑钻会员推出专属游园优惠活动 此次推出的专属权益覆盖上海乐高乐园度假区 主要针对家庭游客群体 提供更加便捷和优惠的游园体验 会员可享受‘两大一小’‘一大一小’套票最低8折的专属折扣 降低家庭出游成本 提高...
11:47
微新创想:2026年3月 Ingenico与Visa宣布达成技术合作 将Ingenico基于安卓系统的AXIUM智能POS终端接入Visa受理平台 合作地点为全球市场 涉及双方支付技术团队 此举旨在整合Visa的支付网关与风险管理服务 强化线上线下全渠道支付能力 通过融合Visa电商经验与Ingenico线下场景专长 AXIUM终端可支持更安全 可扩展的无缝...
11:47
微新创想:2026年3月,美光在FY2026Q2财报会上宣布,下一代HBM内存HBM4E正按计划开发,预计2027年实现量产。该产品将采用第6代10nm级1γ工艺DRAM裸片,进一步提升性能与能效。 美光同时表示,将导入第7代10nm级1δ工艺,并配套High NA EUV光刻设备。此举旨在提升图案化精度与洁净室效率,从而增强制造过程的稳定性和良率。 此外,...