2025年12月2日,商汤科技携手南洋理工大学S-Lab共同发布并开源了革命性的多模态模型架构NEO,这一创新成果标志着行业首个实现深层次融合的原生视觉语言模型的诞生。NEO架构通过突破性的原生图块嵌入技术、三维旋转位置编码以及创新的多头注意力机制,成功实现了视觉与语言在底层层面的统一处理,为多模态AI领域开辟了全新路径。
NEO架构采用了独特的Pre-Buffer & Post-LLM双阶段训练策略,在仅使用3.9亿数据量的情况下,便达到了令人瞩目的顶尖视觉理解能力。这一成就不仅彰显了NEO架构的高效性,更在MMMU、SEED-I等多项权威评测中取得了优异表现,充分验证了其强大的技术实力和广泛的应用潜力。
相较于传统的模块化模型,NEO架构在数据效率、推理性能以及边缘部署方面展现出显著优势。其创新的设计理念使得模型能够在资源受限的环境下依然保持高效运行,为实际应用场景提供了更多可能性。这一突破性进展将极大推动多模态AI技术在各领域的落地应用。
目前,NEO架构的2B与9B版本已正式面向全球开发者开源,这一举措将加速推动多模态AI技术的普及与发展,为全球开发者提供更加强大、高效的AI工具,共同探索人工智能的无限可能。
