
全球人工智能领域最具影响力的顶级会议 NeurIPS 2025 的获奖名单于今晚重磅揭晓,阿里巴巴通义千问团队凭借其突破性研究成果《Attention Gating Makes Better Foundation Models》一举斩获最佳论文奖,成为本届大会四篇获奖论文中唯一代表中国科技力量的团队。这一成就不仅彰显了我国人工智能技术的领先水平,更在全球范围内树立了新的标杆。
本届 NeurIPS 大会共收到全球学者提交的论文稿件达 2 万篇,最终录取率仅为 25%,创历史新低,竞争之激烈可见一斑。在这样的背景下,阿里巴巴通义千问团队的获奖更显难能可贵,其研究成果得到了国际顶级学术界的广泛认可。
该论文的核心创新点在于提出了一种名为“注意力门控”的机制,这一机制在标准注意力机制的基础上增加了一层可学习的门控层,能够实时动态地决定哪些注意力头(Attention Heads)以及哪些 token(tokens)应该继续参与下游的计算过程。这种创新的“滑动门”设计,使得模型能够在保持高效计算的同时,更加精准地聚焦于有效信息,从而显著提升模型的性能。
实验结果表明,该机制在 1.7 B 稠密模型与 15 B MoE 模型上均取得了显著效果。在 3.5 T tokens 的训练数据上,模型参数仅增加了 1%,但困惑度(Perplexity)降低了 0.2,MMLU(Massive Multitask Language Understanding)得分提升了 2 分,同时在 Pile 各个子域上也实现了全面且一致的提升。这一系列的优异表现充分证明了“注意力门控”机制的强大效能。
阿里巴巴通义千问团队对这一成果的原理进行了深入浅出的解释。他们认为,门控机制相当于为注意力机制设置了一道“安检”关卡,能够有效过滤掉无效信息,确保只有高质量的信息能够进入后续的 FFN(Feed-Forward Network)进行计算。这种设计不仅显著提高了计算效率,还增强了模型的鲁棒性,使其在各种复杂场景下都能保持出色的表现。
为了进一步推动该技术的应用与发展,阿里巴巴通义千问团队已将这一机制集成到即将发布的 Qwen3-Next 模型中。同时,他们还将相关的代码和 1.7 B 实验模型开源至 GitHub,供全球开发者社区进行二次验证和进一步研究。这一举措不仅有助于推动人工智能技术的开放共享,也将促进全球范围内的技术交流与合作。
展望未来,通义千问团队表示,他们将继续探索“注意力门控”机制的应用潜力,计划将其扩展到多模态与长文本处理领域。他们相信,通过不断优化和改进,这种“会自己过滤的注意力”机制将成为下一代大型语言模型的标准组件,为人工智能技术的发展注入新的活力。
