阿里开源Qwen3-Next-80B-A3B模型性能效率双突破

2025-09-12 10:08:39 AI动态 67 次阅读

阿里巴巴近日正式宣布开源其最新研发的架构模型——Qwen3-Next-80B-A3B，这一举措不仅彰显了公司在人工智能生成内容（AIGC）领域的深厚积累，更代表着业界在大型语言模型技术上的重要突破。该模型通过在混合注意力机制、高稀疏性专家模型（MoE）以及创新训练方法上的多重革新，实现了性能上的显著飞跃，为AI应用的未来发展注入了强劲动力。

Qwen3-Next-80B-A3B模型的总参数量高达800亿，但在实际推理过程中仅激活30亿参数，这一设计极大地优化了资源利用效率。相较于其前代产品Qwen3-32B，训练成本实现了惊人的90%降幅，同时推理效率提升了整整10倍。特别是在处理超长文本（32K字符以上）时，Qwen3-Next的表现尤为亮眼，其卓越的上下文处理能力使其在执行复杂指令和长文本任务时，性能表现甚至能够与阿里旗舰模型Qwen3-235B相媲美，甚至在某些指标上超越了谷歌最新的Gemini-2.5-Flash思考模型。

该模型的核心创新在于其混合专家架构，巧妙地融合了门控DeltaNet和门控注意力机制。这种创新设计有效解决了传统注意力机制在处理长上下文时存在的效率瓶颈，既保证了处理速度，又显著提升了模型对长文本的理解能力。在训练阶段，Qwen3-Next采用了高稀疏性MoE结构，这一策略在不牺牲性能的前提下，实现了资源利用的最大化。此外，模型还引入了多token预测机制，进一步强化了其在投机解码场景下的表现。

在预训练阶段，Qwen3-Next的效率相较于Qwen3-32B实现了质的飞跃，训练成本仅为后者的9.3%，但性能却更胜一筹。在推理速度方面，Qwen3-Next在处理长文本时的吞吐量相比Qwen3-32B提升了7倍，即使在更长的上下文环境中，其速度优势依然显著，达到了10倍的提升幅度。

阿里巴巴的这一新模型不仅在技术上取得了令人瞩目的突破，更在业界引发了广泛关注和高度评价，尤其是在开发者和研究人员群体中获得了极高的认可。无论是在技术创新层面还是市场竞争力维度，Qwen3-Next都清晰地展现了阿里巴巴在人工智能领域的持续领先地位。

在线体验：https://chat.qwen.ai/
开源地址：https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d

划重点：
🌟 Qwen3-Next-80B-A3B模型总参数800亿，训练成本下降90%，推理效率提升10倍。
🔍 新模型采用混合专家架构与多token预测机制，显著增强上下文处理能力。
🚀 在推理速度上，Qwen3-Next在超长文本场景中表现出色，吞吐量相比前代模型提高了7到10倍。

2025年11月28日

20:02

阿里开源Qwen3-Next-80B-A3B模型性能效率双突破

最新快讯

2025年11月28日

长安汽车2.25亿设机器人公司聚焦智能人形机器人技术

Instagram推出本地化翻译功能助力创作者拓展国际影响力

安世中国要求荷兰方就控制权磋商恢复供应供应链稳定

振石集团计划增持中国巨石5.5亿至11亿显信心

中国信通院建议细化数据容错免责办法激发要素活力

胜科纳米5亿投建青岛检测项目提升半导体检测分析能力

贝达药业恩沙替尼获欧洲受理有望治疗ALK阳性肺癌

M&M’S上海迪士尼小镇新店2026开业购物餐饮娱乐一体沉浸体验

美团Q3核心本地商业巨亏141亿同比由盈转亏

海特生物参股ZM-02眼用注射液获FDA临床试验批准迈向国际

泰恩康子公司获巴瑞替尼片注册证开拓自身免疫疾病治疗市场

首旅如家引入煮面机器人提升早餐效率

阿里开源Qwen3-Next-80B-A3B模型 性能效率双突破

最新快讯

2025年11月28日

阿里开源Qwen3-Next-80B-A3B模型性能效率双突破