阿里通义千问凭门控注意力摘下NeurIPS 2025最佳论文奖成唯一中国面孔

2025-11-28 18:28:09 AI动态 1 次阅读

全球人工智能领域最具影响力的顶级会议 NeurIPS 2025 的获奖名单于今晚重磅揭晓，阿里巴巴通义千问团队凭借其突破性研究成果《Attention Gating Makes Better Foundation Models》一举斩获最佳论文奖，成为本届大会四篇获奖论文中唯一代表中国科技力量的团队。这一成就不仅彰显了我国人工智能技术的领先水平，更在全球范围内树立了新的标杆。

本届 NeurIPS 大会共收到全球学者提交的论文稿件达 2 万篇，最终录取率仅为 25%，创历史新低，竞争之激烈可见一斑。在这样的背景下，阿里巴巴通义千问团队的获奖更显难能可贵，其研究成果得到了国际顶级学术界的广泛认可。

该论文的核心创新点在于提出了一种名为“注意力门控”的机制，这一机制在标准注意力机制的基础上增加了一层可学习的门控层，能够实时动态地决定哪些注意力头（Attention Heads）以及哪些 token（tokens）应该继续参与下游的计算过程。这种创新的“滑动门”设计，使得模型能够在保持高效计算的同时，更加精准地聚焦于有效信息，从而显著提升模型的性能。

实验结果表明，该机制在 1.7 B 稠密模型与 15 B MoE 模型上均取得了显著效果。在 3.5 T tokens 的训练数据上，模型参数仅增加了 1%，但困惑度（Perplexity）降低了 0.2，MMLU（Massive Multitask Language Understanding）得分提升了 2 分，同时在 Pile 各个子域上也实现了全面且一致的提升。这一系列的优异表现充分证明了“注意力门控”机制的强大效能。

阿里巴巴通义千问团队对这一成果的原理进行了深入浅出的解释。他们认为，门控机制相当于为注意力机制设置了一道“安检”关卡，能够有效过滤掉无效信息，确保只有高质量的信息能够进入后续的 FFN（Feed-Forward Network）进行计算。这种设计不仅显著提高了计算效率，还增强了模型的鲁棒性，使其在各种复杂场景下都能保持出色的表现。

为了进一步推动该技术的应用与发展，阿里巴巴通义千问团队已将这一机制集成到即将发布的 Qwen3-Next 模型中。同时，他们还将相关的代码和 1.7 B 实验模型开源至 GitHub，供全球开发者社区进行二次验证和进一步研究。这一举措不仅有助于推动人工智能技术的开放共享，也将促进全球范围内的技术交流与合作。

展望未来，通义千问团队表示，他们将继续探索“注意力门控”机制的应用潜力，计划将其扩展到多模态与长文本处理领域。他们相信，通过不断优化和改进，这种“会自己过滤的注意力”机制将成为下一代大型语言模型的标准组件，为人工智能技术的发展注入新的活力。