
英伟达近日震撼发布全新 Nemotron 3 系列模型,这一突破性产品融合了 Mamba 和 Transformer 双重架构优势,专为高效处理超长上下文窗口而设计,同时显著降低资源消耗。Nemotron 3 系列专为基于代理的人工智能系统量身打造,这类先进系统能够自主执行复杂任务,实现持久且深入的长时间交互。全新系列涵盖 Nano、Super 和 Ultra 三种型号,其中 Nano 型号现已正式面向市场,而备受期待的 Super 和 Ultra 型号预计将于 2026 年上半年正式亮相。
英伟达此次创新性地打破了传统纯 Transformer 架构的局限,采用混合架构设计,将高效的 Mamba 层与 Transformer 元素及混合专家(MoE)技术完美融合。相较于传统的纯 Transformer 模型,Nemotron 3 能够更出色地处理长输入序列,同时保持内存使用稳定。该系列支持高达一百万个令牌的上下文窗口,这一性能指标已与 OpenAI 和 Google 等行业前沿模型看齐,使其能够在不对硬件造成过大压力的情况下,高效存储海量信息,例如完整代码库或长时间的对话历史记录。
Nano 型号配备 316 亿个参数,但在每个处理步骤中,仅激活 30 亿个参数,这种高效设计显著提升了运算性能。根据人工智能分析指数(AII)的权威基准测试,Nemotron 3 在准确率上可与 gpt-oss-20B 和 Qwen3-30B 等顶级模型相媲美,同时在令牌吞吐量上表现更为卓越。
英伟达还为更强大的 Super 和 Ultra 型号引入了两项关键架构创新。首先是 LatentMoE 技术,该技术旨在解决标准 MoE 模型中内存带宽的瓶颈问题,通过在处理令牌前将其投影到压缩的潜在表示中,大幅提升系统效率。其次是多词元预测(MTP)技术,这一创新在训练过程中可同时预测多个词元,从而显著提高文本生成速度和逻辑推理能力。
此外,英伟达慷慨发布了 Nano 型号的权重、训练方案及多个优质数据集,包括基于 Common Crawl 的 Nemotron-CC-v2.1 等,为开发者提供了全方位的技术支持,助力其创新应用落地。此次发布充分体现了英伟达致力于开发更小型语言模型的战略方向,以优先考虑速度而非原始性能,推动人工智能技术的普惠发展。
划重点:
🌟 Nemotron 3 系列融合 Mamba 和 Transformer 架构,大幅提升 AI 代理处理效率
🚀 Nano 型号现已上市,Super 和 Ultra 预计 2026 年上半年推出
📊 英伟达公开模型权重和训练数据集,赋能开发者创新实践
