
商汤科技携手南洋理工大学 S-Lab 联合推出行业首创的原生多模态架构 NEO,并同步向公众开放2B与9B两款预训练模型。这一创新架构彻底颠覆了传统的”视觉编码器+投影器+语言模型”三段式设计,从注意力机制到位置编码再到语义映射进行了全面重构。据官方公布的数据显示,在保持同等性能表现的前提下,NEO架构的数据需求量仅为行业平均水平的三十分之一,开创性地实现了”像素到Token”的连续映射模式。

商汤技术负责人详细解释道,NEO架构的核心突破在于原生图块嵌入层的设计,该层能够直接读取像素信息,从而取消了传统模型中独立的图像Tokenizer。特别值得一提的是其创新的三维旋转位置编码技术(Native-RoPE),这一技术能够在同一向量空间内同时处理文本与视觉时空频率信息。此外,NEO采用”视觉双向+文本自回归”的混合多头注意力计算机制,通过强化空间结构关联得分,使模型性能提升高达24%。
经过严格测试验证,NEO架构在0.6B至8B的参数规模区间内表现出色,在ImageNet、COCO以及Kinetics-400等多个权威数据集上均取得了当前最优(SOTA)的实验结果。值得注意的是,该架构在边缘设备上的推理延迟控制在80毫秒以下,充分展现了其在实际应用中的高效性。目前,所有模型权重与训练脚本已完整上传至GitHub平台,供开发者自由使用。

展望未来,商汤科技计划在明年第一季度进一步扩大开源范围,推出支持3D感知与视频理解的升级版本。业内专家普遍认为,NEO架构所倡导的”深层融合”理念有望彻底改变当前多模态模型”拼积木式”的集成方式,为终端小模型性能树立全新的基准线,将多模态AI技术推向更加智能化、高效化的新阶段。
