小红书开源dots.vlm1多模态大模型 NaViT领跑行业

2025-08-07 15:27:07 AI动态 95 次阅读

小红书旗下实验室 Hi Lab 近期重磅发布并正式开源了其自主研发的首款多模态大模型 dots.vlm1。这款模型基于12亿参数的 NaViT 视觉编码器与 DeepSeek V3 大语言模型构建，通过从零开始的完整训练，在多模态视觉理解与推理能力上已达到与当前顶尖闭源模型如 Gemini2.5Pro 和 Seed-VL1.5 相当的性能水平，标志着开源多模态模型的技术表现迈上了全新台阶。

dots.vlm1 的核心竞争力源于其原生自主研发的 NaViT 视觉编码器。这一创新突破摒弃了传统基于成熟模型微调的路径，采用从零训练的方式，并具备动态分辨率处理能力，能够灵活适应各种复杂的真实图像场景。通过融合纯视觉监督与文本视觉双重监督机制，模型在泛化能力上实现了显著提升，特别是在处理表格、图表、公式、文档等非典型结构化图片时，展现出超乎寻常的准确性和鲁棒性。

在数据构建方面，Hi Lab 团队投入巨力打造了规模庞大且质量精良的训练集。他们通过自主重写网页数据，并运用自研的 dots.ocr 工具处理 PDF 文档，大幅提升了图文对齐的精准度，为模型建立强大的跨模态理解能力奠定了坚实基础。

在权威评测中，dots.vlm1 的表现足以媲美业界顶尖的闭源模型。在 MMMU、MathVision 和 OCR Reasoning 等主流国际多模态评测集上，该模型均取得了与 Gemini2.5Pro 和 Seed-VL1.5 相当的优异成绩。特别是在图表推理、STEM 数学推理以及长尾细分场景识别等复杂应用中，dots.vlm1 凭借卓越的逻辑推理和分析能力脱颖而出，完全能够胜任包括奥数在内的各类高难度任务。尽管在文本推理的极复杂任务上与最先进的闭源模型尚存在细微差距，但其通用数学推理和代码能力已达到与主流大语言模型持平的水平。

Hi Lab 团队表示将持续优化 dots.vlm1 的性能表现。未来计划通过扩大跨模态数据规模，并引入强化学习等前沿算法，进一步提升模型的推理泛化能力。通过开源 dots.vlm1，小红书 Hi Lab 致力于为多模态大模型生态系统注入新的活力，推动整个行业向更高水平发展。

2025年11月28日

12:07

小红书开源dots.vlm1多模态大模型 NaViT领跑行业

最新快讯

2025年11月28日

CreatorFi获200万美元战略融资加速Web3创作者经济发展

三星One UI 8.5优化深色模式图标提升夜间体验

摩尔线程发布Torch-MUSA v2.7.0 支持PyTorch深度学习框架强化性能

淮畔农业千万元A轮融资助力鱼菜共生技术产业化扩张

Helio AI获100万美元种子轮 AI招聘平台获SABAH.fund领投

Apptronik获3.31亿美元融资估值达50亿加速Apollo机器人量产

隆盛科技战略投资叠动科技完成新一轮增资扩股加速毫米级微视触觉传感器研发

TÜV莱茵授予巴斯夫如东基地零碳工厂认证

新一代健康管理品牌年年一漾获千万元天使轮融资加速布局精准健康领域

中国将建156星太空感知星座提升全球监测预警能力

联盟5号国产发动机火箭首飞 2025将载18吨升空

豆包语音更新支持粤语四川话等4种方言对话