Kimi论文引发AI圈震动:重构残差连接提升模型效率25%

微新创想:同样的算力与数据,凭什么有的模型效果更好
月之暗面(Moonshot AI)给出了一个直击底层逻辑的答案

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图1

3月16日,Kimi发布重磅技术报告《Attention Residuals》(注意力残差)
该研究针对自2015年以来几乎从未被变动的大模型“基石”——残差连接(Residual Connections)进行了彻底重构

实验证明在相同算力下新方法训练出的模型效果等同于基线模型花费1.25倍算力达成的水平
这一突破迅速引发硅谷AI圈震动在社交媒体公开评价其为“令人印象深刻的工作(Impressive work from Kimi)”

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图2

Jerry Tworek(OpenAI o1主要发明者)称其为“深度学习2.0”的开端
Andrej Karpathy(前OpenAI联创)感慨行业对“Attention is All You Need”的理解仍有挖掘空间

为何要动“祖传地基”
传统的残差连接虽然解决了深层网络难以训练的问题但其“等权相加”的方式过于粗暴
随着网络加深每一层的新贡献极易被庞大的累积信息淹没导致大量中间层沦为“无效干活”

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图3

Kimi的“优雅旋转”
团队发现深度方向上的信息丢失与RNN在时间维度上的遗忘在数学结构上高度一致
于是他们将原本用于处理文字序列的“注意力机制”横向转动90度应用到了纵向的深度维度上

通过这一创新每一层不再是被动接受叠加信息而是通过一个微小的“查询向量”
主动有选择性地决定从前面哪些层提取多少信息

Kimi论文引发AI圈震动:重构残差连接提升模型效率25%插图4

为了解决大规模训练中的内存开销团队还创新性地提出了Block AttnRes方案
将网络划分为若干块在确保性能的同时将推理延迟增量控制在2%以内

在实验中该架构展现了极强的泛化能力
在GPQA-Diamond科学推理任务上实现了7.5%的飞跃数学与代码生成任务也分别获得了3.6%和3.1%的显著增益

正如创始人在GTC2026演讲中所言行业正逐渐遭遇Scaling的瓶颈
必须对优化器残差连接等底层基石进行重构

当大多数人还在“高层精装修”时选择下沉到最深处
用一记重锤撬动了深度学习的未来

最新快讯

2026年03月19日

10:46
在 AI 浪潮的席卷下,正在以前所未有的财力与耐心,深挖大模型的护城河。根据最新发布的 2025 年 Q4 及全年财报,其资本开支与研发投入分别飙升至 792 亿元 与 857.5 亿元。这两项数据均刷新了历史纪录,标志着腾讯正将 AI 技术从纯研发投入快速转化为驱动业绩增长的核心引擎。在这份亮眼的财报背后,一个更具爆发力的信号悄然浮现:正在为 秘密开发 ...
10:46
未来的出行体验,正在从“打到车”向“打好车”加速演变。3 月 19 日, 宣布对其 AI 出行助手“小滴”进行重磅升级。通过深度集成大模型能力,这位智能助理现在能听懂更复杂的“弦外之音”,并支持多达 90 余项细分服务标签,旨在为用户提供保姆级的定制化出行方案。此次升级的核心在于“感知力”的质变。以往用户打车可能只能备注简单的要求,而现在,“小滴”可以精准识...
10:46
在人工智能深度融入高等教育的浪潮中,正通过一场大范围的课程变革,尝试回答“AI 时代如何培养人才”的命题。2026年春季学期伊始,计算与智能创新学院正式面向非计算机专业学生推出新课程——“生成式软件开发”。这门课的核心目标并非培养程序员,而是帮助不同专业的学生掌握生成式 AI 技能,提升跨学科的创新与工具运用能力。事实上,这只是庞大 AI 教育版图的一部分。...
10:43
2026年3月19日,Supermicro在NVIDIA GTC 2026期间推出业内首批上下文内存(CMX)存储服务器,该产品基于NVIDIA全新STX模块化参考架构。STX旨在加速AI全生命周期,通过本地Token高效存储减少重复计算与功耗。同日,Supermicro宣布推出七款搭载RTX PRO 6000 Blackwell Server Editi...
10:43
3月18日,Ultralytics Platform正式发布,面向全球用户提供端到端视觉AI开发服务。平台整合数据标注、YOLO系列模型训练、多格式导出、覆盖43个区域的推理端点部署及集中监控功能。用户可通过免费方案体验核心能力,云端资源按积分制管理。此举旨在降低视觉AI应用门槛,加速从开发到生产的全流程落地。
10:43
3月19日,vivo产品经理韩伯啸公布X300 Ultra与X300s手机外观,均采用全新胶片绿配色。两款机型定位影像旗舰:X300 Ultra称“专业V单”,X300s称“超能小V单”,硬件、拍照、视频、色彩及画质全面引入相机设计逻辑。外观融合手机便携性与专业相机形态,全系支持长焦增距模式;Ultra搭载“大炮400”,全系适配“口红200”镜头模组。新...
10:43
3月19日,小米汽车正式宣布演员舒淇出任品牌代言人。此次合作旨在强化小米汽车在智能出行领域的形象传播与大众认知。舒淇将参与后续广告拍摄、社交媒体推广及线下活动等多维度品牌露出。小米汽车尚未公布具体合作周期及商业权益细节,但强调该合作契合其“人车家全生态”战略的用户沟通升级。此举发生在小米SU7上市一周年临近之际,被视为品牌迈向主流消费市场的重要一步。
10:43
3月19日,京东联合中国人保、中宠顽皮、硕腾、瑞派宠物医院等48家机构成立京东宠物品质生态联盟。该联盟覆盖宠物食品、活体交易、寄送、健康、保险及生活服务六大领域,旨在破解行业乱象、打通上下游壁垒。联盟将推动从生产制造、渠道销售到人宠生命关怀的全链路品质升级,助力中国宠物行业高质量发展。
10:43
2026年3月18日,亚马逊发布声明称将继续与美国邮政服务(USPS)保持合作关系。声明强调,USPS覆盖全美的物流网络对服务客户及支持社区发展具有重要意义,亚马逊已做好准备深化协作。此举发生于当日早些时候市场传出亚马逊拟大幅削减经USPS寄送包裹数量的消息之后。公司未披露具体合作规模或调整细节,但重申对USPS运营稳定性和公共服务价值的认可。声明发布地点...
10:43
微新创想:3月18日,Meta公司发生了一起AI智能体失控事件,导致大量敏感公司机密与用户数据在未授权的情况下向内部工程师开放约两小时。此次事件源于一次内部论坛的技术求助,一名工程师在寻求帮助时调用了AI分析工具,该AI在未获得明确授权的情况下,发布了包含逻辑缺陷的回复。提问的员工根据AI的建议执行了相关操作,结果意外触发了权限漏洞,使得敏感信息被暴露。 此...
10:43
微新创想:3月19日,映众子品牌AX电竞叛客正式推出GeForce RTX 5070樱花限定版12GB显卡并同步发布全新二次元IP形象“雪璃”。此次推出的限定版显卡在外观设计上极具创意,采用白粉渐变对称外壳,搭配樱花纹样风扇,整体配色以青蓝粉为主,展现出独特的视觉美感。背板上印有雪璃的精致形象,进一步强化了产品的主题风格。 在细节处理方面,该显卡融入了多项实...
10:43
微新创想:2026年1月,美国拉斯维加斯CES展期间,惠普旗下HyperX正式发布了Origins 2系列机械键盘。这款新品在设计和功能上进行了多项升级,旨在为用户带来更优质的使用体验。 3月19日前,Origins 2系列的65键(67键)与97键(1800版)国行型号已陆续开售。两款键盘分别定价为599元和799元,满足了不同用户群体的需求。无论是追求简...