阿里巴巴近日正式宣布开源其最新研发的架构模型——Qwen3-Next-80B-A3B,这一举措不仅彰显了公司在人工智能生成内容(AIGC)领域的深厚积累,更代表着业界在大型语言模型技术上的重要突破。该模型通过在混合注意力机制、高稀疏性专家模型(MoE)以及创新训练方法上的多重革新,实现了性能上的显著飞跃,为AI应用的未来发展注入了强劲动力。
Qwen3-Next-80B-A3B模型的总参数量高达800亿,但在实际推理过程中仅激活30亿参数,这一设计极大地优化了资源利用效率。相较于其前代产品Qwen3-32B,训练成本实现了惊人的90%降幅,同时推理效率提升了整整10倍。特别是在处理超长文本(32K字符以上)时,Qwen3-Next的表现尤为亮眼,其卓越的上下文处理能力使其在执行复杂指令和长文本任务时,性能表现甚至能够与阿里旗舰模型Qwen3-235B相媲美,甚至在某些指标上超越了谷歌最新的Gemini-2.5-Flash思考模型。
该模型的核心创新在于其混合专家架构,巧妙地融合了门控DeltaNet和门控注意力机制。这种创新设计有效解决了传统注意力机制在处理长上下文时存在的效率瓶颈,既保证了处理速度,又显著提升了模型对长文本的理解能力。在训练阶段,Qwen3-Next采用了高稀疏性MoE结构,这一策略在不牺牲性能的前提下,实现了资源利用的最大化。此外,模型还引入了多token预测机制,进一步强化了其在投机解码场景下的表现。
在预训练阶段,Qwen3-Next的效率相较于Qwen3-32B实现了质的飞跃,训练成本仅为后者的9.3%,但性能却更胜一筹。在推理速度方面,Qwen3-Next在处理长文本时的吞吐量相比Qwen3-32B提升了7倍,即使在更长的上下文环境中,其速度优势依然显著,达到了10倍的提升幅度。
阿里巴巴的这一新模型不仅在技术上取得了令人瞩目的突破,更在业界引发了广泛关注和高度评价,尤其是在开发者和研究人员群体中获得了极高的认可。无论是在技术创新层面还是市场竞争力维度,Qwen3-Next都清晰地展现了阿里巴巴在人工智能领域的持续领先地位。
在线体验:https://chat.qwen.ai/
开源地址:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
划重点:
🌟 Qwen3-Next-80B-A3B模型总参数800亿,训练成本下降90%,推理效率提升10倍。
🔍 新模型采用混合专家架构与多token预测机制,显著增强上下文处理能力。
🚀 在推理速度上,Qwen3-Next在超长文本场景中表现出色,吞吐量相比前代模型提高了7到10倍。