小红书开源dots.vlm1多模态大模型 NaViT领跑行业

小红书旗下实验室 Hi Lab 近期重磅发布并正式开源了其自主研发的首款多模态大模型 dots.vlm1。这款模型基于12亿参数的 NaViT 视觉编码器与 DeepSeek V3 大语言模型构建,通过从零开始的完整训练,在多模态视觉理解与推理能力上已达到与当前顶尖闭源模型如 Gemini2.5Pro 和 Seed-VL1.5 相当的性能水平,标志着开源多模态模型的技术表现迈上了全新台阶。

小红书开源dots.vlm1多模态大模型 NaViT领跑行业插图1

dots.vlm1 的核心竞争力源于其原生自主研发的 NaViT 视觉编码器。这一创新突破摒弃了传统基于成熟模型微调的路径,采用从零训练的方式,并具备动态分辨率处理能力,能够灵活适应各种复杂的真实图像场景。通过融合纯视觉监督与文本视觉双重监督机制,模型在泛化能力上实现了显著提升,特别是在处理表格、图表、公式、文档等非典型结构化图片时,展现出超乎寻常的准确性和鲁棒性。

在数据构建方面,Hi Lab 团队投入巨力打造了规模庞大且质量精良的训练集。他们通过自主重写网页数据,并运用自研的 dots.ocr 工具处理 PDF 文档,大幅提升了图文对齐的精准度,为模型建立强大的跨模态理解能力奠定了坚实基础。

小红书开源dots.vlm1多模态大模型 NaViT领跑行业插图2

在权威评测中,dots.vlm1 的表现足以媲美业界顶尖的闭源模型。在 MMMU、MathVision 和 OCR Reasoning 等主流国际多模态评测集上,该模型均取得了与 Gemini2.5Pro 和 Seed-VL1.5 相当的优异成绩。特别是在图表推理、STEM 数学推理以及长尾细分场景识别等复杂应用中,dots.vlm1 凭借卓越的逻辑推理和分析能力脱颖而出,完全能够胜任包括奥数在内的各类高难度任务。尽管在文本推理的极复杂任务上与最先进的闭源模型尚存在细微差距,但其通用数学推理和代码能力已达到与主流大语言模型持平的水平。

Hi Lab 团队表示将持续优化 dots.vlm1 的性能表现。未来计划通过扩大跨模态数据规模,并引入强化学习等前沿算法,进一步提升模型的推理泛化能力。通过开源 dots.vlm1,小红书 Hi Lab 致力于为多模态大模型生态系统注入新的活力,推动整个行业向更高水平发展。

最新快讯

2025年08月07日

18:56
微新创想8月7日重磅消息,华为再次升级鸿蒙原生应用开发者激励计划,以丰厚的现金奖励吸引全球开发者投身鸿蒙生态,共创精彩应用与游戏体验。根据华为开发者联盟最新公告,2025年度激励计划现已正式启动,凡在2025年7月23日至12月31日期间完成鸿蒙应用、游戏或元服务的开发,并成功上架华为应用市场,均有机会赢取丰厚现金回馈。 本次激励计划面向所有类型的鸿蒙开发者...
18:56
每一个IP系列片的第二部都承载着特殊的使命,它的市场表现往往决定了整个IP未来发展的可能性。电影《罗小黑战记2》作为这一系列的续集,在叙事制作全面升级的同时,无疑为罗小黑IP的发展又迈出了坚实的一步。即便距离首部院线电影上映已经过去了六年,TV番剧也时隔四年回归,但《罗小黑战记2》依然凭借其强大的IP粘性,累计票房突破3.7亿元。在这个史上豆瓣评分超8分作品...
18:56
8月7日,随着立秋节气的到来,我们正式迈入秋季。然而,气象专家提醒,尽管立秋已至,但三伏天的余威仍在,暑气尚未完全消散。特别是在南方地区,"秋老虎"现象可能再次出现,导致气温持续偏高,给人们的生活带来困扰。 "秋老虎"是指立秋之后出现的短期回热天气,通常发生在8月与9月之交。这种天气现象主要由于连日晴朗、日照强烈,使得气温再度攀升,如同老虎般蛮横霸道,让人感...
18:56
微新创想8月7日讯 高德地图近日因一则特殊留言引发广泛关注。5月20日,其官方微博发布更新预告《把家人的声音装进导航》后,留言区出现一条令人动容的提问:"过世的亲人留下的语音记录可以用吗?"这条来自普通用户的留言,意外触动了高德地图团队最柔软的神经。在众多用户分享孩子童声或情侣情话的温馨场景中,这份跨越生死的情感诉求显得尤为珍贵。 "您的需求很暖,我们会反馈...
18:56
近日,广西北海铁山服务区发生了一起令人难以置信的自然奇观,瞬间引爆了网络热议。有网友在此处休息时,本想用手机记录下雨中闪电的壮观景象,却意外捕捉到了一段惊心动魄的画面。原本对准雨景的镜头,突然定格在了一道闪电直击行驶汽车的瞬间。据当事人描述,闪电击中的刹那,整个服务区都感受到了明显的震动,而那辆被击中的汽车在瞬间熄火,彻底瘫痪。出于安全考虑,该网友立即驾车离...
18:56
GitHub平台上上一篇意外泄露现已删除的博客文章,意外曝光了OpenAI下一代旗舰模型GPT-5的关键技术细节。这篇由Reddit用户率先发现、随后被The Verge深度报道的文档,为外界首次提供了GPT-5功能特性的官方级窥见。根据泄露文档,GPT-5将采用四大版本策略,全面覆盖不同场景需求。 四版本策略全面覆盖全场景需求 据泄露文档显示,GPT-5将...
18:56
在全球人工智能技术浪潮奔涌的今天,摩尔线程(Moore Threads)再次以惊人的速度实现技术飞跃!其自主研发的通用并行计算架构 MUSA(Meta-computing Unified System Architecture)近日传来重大突破——成功将备受瞩目的开源推理框架 llama.cpp 完美适配。这一里程碑式的成就不仅彰显了摩尔线程在 AI 生态建...
18:56
2025年上半年,禾盛新材交出亮眼业绩答卷,实现营业收入12.11亿元,同比增长0.32%,虽然增速相对温和,但归母净利润却大幅攀升至9700.31万元,同比增长58.31%,展现出强劲的盈利能力。这一成绩的取得,主要得益于市场需求逐步回暖与公司内部运营效率的显著提升。具体来看,随着经济复苏步伐加快,下游行业对新材料的需求呈现回暖态势,为禾盛新材创造了更广阔...
18:56
2025年8月7日,纽约商品交易所白银期货价格迎来强劲反弹,日内涨幅超过2%,最新报价定格在38.67美元/盎司。这一显著上涨主要源于市场对白银需求增长的积极预期。多位分析师指出,近期工业领域对白银的采购需求以及投资市场的追捧,共同推动了银价的显著攀升。工业需求方面,白银作为电子、光伏等产业的关键原材料,其应用范围持续扩大,为市场提供了稳定的基本面支撑。同时...
18:56
2025年8月7日,通富微电正式发布公告,披露了国家集成电路产业投资基金股份有限公司的重要股份变动情况。据悉,该基金在2025年7月18日至8月6日期间,通过大宗交易系统逐步减持了通富微电的股份,累计减持数量达到1314.24万股。经过此次调整,该基金在通富微电的持股比例已降至6.91%。值得注意的是,此次减持行动并未对公司的实际控制权构成任何影响,相关股份...
18:56
2025年8月7日,全球领先的集装箱航运巨头马士基正式发布最新财务展望,宣布大幅上调全年业绩预期。公司高层在声明中明确指出,得益于全球供应链需求呈现强劲反弹态势,以及内部运营效率的持续优化,预计2025年全年营收与利润表现将显著超越先前发布的目标区间。这一积极调整不仅彰显了当前市场环境的显著改善,更充分验证了马士基在战略布局与业务转型方面的前瞻性举措已取得阶...
18:56
2025年8月7日,格尔软件正式发布重要公告,宣布计划通过定向增发方式募集不超过2.83亿元人民币的资金。此次募资将重点投向三大核心领域:一是抗量子密码技术的产业化项目,二是可信数据空间平台的研发与产业化项目,三是用于补充公司日常运营的流动资金。这一战略举措充分展现了格尔软件在核心技术竞争力和市场拓展方面的雄心,通过先进技术的研发与应用,持续巩固其在信息安全...