小红书旗下实验室 Hi Lab 近期重磅发布并正式开源了其自主研发的首款多模态大模型 dots.vlm1。这款模型基于12亿参数的 NaViT 视觉编码器与 DeepSeek V3 大语言模型构建,通过从零开始的完整训练,在多模态视觉理解与推理能力上已达到与当前顶尖闭源模型如 Gemini2.5Pro 和 Seed-VL1.5 相当的性能水平,标志着开源多模态模型的技术表现迈上了全新台阶。
dots.vlm1 的核心竞争力源于其原生自主研发的 NaViT 视觉编码器。这一创新突破摒弃了传统基于成熟模型微调的路径,采用从零训练的方式,并具备动态分辨率处理能力,能够灵活适应各种复杂的真实图像场景。通过融合纯视觉监督与文本视觉双重监督机制,模型在泛化能力上实现了显著提升,特别是在处理表格、图表、公式、文档等非典型结构化图片时,展现出超乎寻常的准确性和鲁棒性。
在数据构建方面,Hi Lab 团队投入巨力打造了规模庞大且质量精良的训练集。他们通过自主重写网页数据,并运用自研的 dots.ocr 工具处理 PDF 文档,大幅提升了图文对齐的精准度,为模型建立强大的跨模态理解能力奠定了坚实基础。
在权威评测中,dots.vlm1 的表现足以媲美业界顶尖的闭源模型。在 MMMU、MathVision 和 OCR Reasoning 等主流国际多模态评测集上,该模型均取得了与 Gemini2.5Pro 和 Seed-VL1.5 相当的优异成绩。特别是在图表推理、STEM 数学推理以及长尾细分场景识别等复杂应用中,dots.vlm1 凭借卓越的逻辑推理和分析能力脱颖而出,完全能够胜任包括奥数在内的各类高难度任务。尽管在文本推理的极复杂任务上与最先进的闭源模型尚存在细微差距,但其通用数学推理和代码能力已达到与主流大语言模型持平的水平。
Hi Lab 团队表示将持续优化 dots.vlm1 的性能表现。未来计划通过扩大跨模态数据规模,并引入强化学习等前沿算法,进一步提升模型的推理泛化能力。通过开源 dots.vlm1,小红书 Hi Lab 致力于为多模态大模型生态系统注入新的活力,推动整个行业向更高水平发展。