商汤开源NEO架构：原生多模态模型性能突破数据减90%

2025-12-03 10:44:05 AI动态 2 次阅读

商汤科技携手南洋理工大学 S-Lab 联合推出行业首创的原生多模态架构 NEO，并同步向公众开放2B与9B两款预训练模型。这一创新架构彻底颠覆了传统的”视觉编码器+投影器+语言模型”三段式设计，从注意力机制到位置编码再到语义映射进行了全面重构。据官方公布的数据显示，在保持同等性能表现的前提下，NEO架构的数据需求量仅为行业平均水平的三十分之一，开创性地实现了”像素到Token”的连续映射模式。

商汤技术负责人详细解释道，NEO架构的核心突破在于原生图块嵌入层的设计，该层能够直接读取像素信息，从而取消了传统模型中独立的图像Tokenizer。特别值得一提的是其创新的三维旋转位置编码技术（Native-RoPE），这一技术能够在同一向量空间内同时处理文本与视觉时空频率信息。此外，NEO采用”视觉双向+文本自回归”的混合多头注意力计算机制，通过强化空间结构关联得分，使模型性能提升高达24%。

经过严格测试验证，NEO架构在0.6B至8B的参数规模区间内表现出色，在ImageNet、COCO以及Kinetics-400等多个权威数据集上均取得了当前最优（SOTA）的实验结果。值得注意的是，该架构在边缘设备上的推理延迟控制在80毫秒以下，充分展现了其在实际应用中的高效性。目前，所有模型权重与训练脚本已完整上传至GitHub平台，供开发者自由使用。