小型 AI 模型正以惊人的速度改变着科技格局,而英伟达作为行业领军者,再次引领潮流。继麻省理工学院和谷歌分别推出适用于智能手表和智能手机的微型 AI 模型后,英伟达重磅发布了其最新力作——小型语言模型 Nemotron-Nano-9B-V2。这款模型在多项权威基准测试中表现卓越,并在特定任务上超越了同级别产品,充分展现了其强大的性能和效率优势。
专为高效推理打造Nemotron-Nano-9B-V2拥有90亿参数量,虽然相较于数百万参数的微型模型规模更大,但相较于其120亿参数的前代产品却实现了显著压缩。英伟达 AI 模型后训练总监 Oleksii Kuchiaev 特别强调,这种设计调整是为了完美适配当前热门的英伟达 A10 GPU,从而最大化部署效率。作为一款混合架构模型,Nemotron-Nano-9B-V2能够处理更大的数据批次,运行速度比同等规模的 Transformer 模型快达6倍。该模型支持包括中文、英语、德语、法语、日语、韩语在内的九种语言,在指令跟踪和代码生成等任务上展现出惊人能力。其预训练数据集和模型本身均已公开发布在 Hugging Face 和英伟达官方模型目录,为开发者提供了极大的便利。
创新架构融合前沿技术Nemotron-Nano-9B-V2基于 Nemotron-H 系列架构,巧妙融合了 Mamba 和 Transformer 的优势。传统 Transformer 模型在处理长序列数据时往往面临内存和计算资源瓶颈,而 Mamba 架构通过引入选择性状态空间模型(SSM)创新性地实现了线性复杂度处理长信息序列的能力。Nemotron-H 系列通过用线性状态空间层替代大部分注意力层,在保持高精度的同时将长上下文处理的吞吐量提升了2-3倍,为自然语言处理领域带来了革命性突破。
独特推理控制机制Nemotron-Nano-9B-V2最令人瞩目的创新在于其内置的”推理”功能。该功能允许用户在模型生成最终答案前进行自我验证,确保输出结果的准确性和可靠性。用户只需通过简单的控制符如 /think 或 /no_think 即可轻松开启或关闭此功能。更值得一提的是,模型还支持运行时的”思考预算”管理机制,开发者可以根据实际需求限制用于内部推理的令牌数量,从而在准确性和响应速度之间实现最佳平衡。这一特性对于客户支持系统或自主代理等对实时性要求极高的应用场景具有不可估量的价值。
开放许可助力企业创新英伟达根据其高度灵活的开放模型许可协议发布了 Nemotron-Nano-9B-V2,为企业开发者提供了前所未有的机遇。该协议对企业极其友好,允许企业自由将模型用于商业用途,且无需支付任何费用或版税。尽管协议极为宽松,但仍包含几项核心要求:用户必须严格遵守内置安全机制,在模型再分发时注明来源,并遵守相关法律法规。英伟达明确表示,该许可协议旨在促进负责任和合乎道德的 AI 应用,而非通过限制商业规模获取利益。这一举措使得 Nemotron-Nano-9B-V2 成为那些寻求在降低成本和延迟的同时保持高精度的企业开发者的理想选择,必将推动 AI 技术在商业领域的广泛应用。