在多模态嵌入学习这一前沿领域,研究人员正致力于打破不同数据形式之间的壁垒,以实现更高效、更全面的信息理解与处理。近日,由 Salesforce Research、加州大学圣巴巴拉分校、滑铁卢大学及清华大学联合研发的 VLM2Vec-V2 框架横空出世,它代表了一种全新的多模态嵌入学习范式,专注于统一图像、视频和视觉文档的检索任务。

现有的多模态嵌入模型往往局限于特定的数据集,如 MMEB 和 M-BEIR,主要聚焦于自然图像和照片,而这些数据集大多源自 MSCOCO、Flickr 和 ImageNet,严重缺乏对更广泛视觉信息类型的覆盖,例如文档、PDF、网站、视频和幻灯片。这种局限性导致现有模型在文章搜索、网站搜索及 YouTube 视频搜索等实际任务中表现平平。

VLM2Vec-V2 的问世,首先通过扩展 MMEB 数据集打破了这一瓶颈,新增了五种关键任务类型,包括视觉文档检索、视频检索、时间定位、视频分类和视频问答,为多模态学习提供了更全面、更丰富的评估标准。作为一款通用的嵌入模型,VLM2Vec-V2 支持多样化的输入形式,在新型任务和传统图像基准测试中均表现出色,为多模态学习的研究与应用奠定了更灵活、更具扩展性的基础。

VLM2Vec-V2 的核心架构选用了 Qwen2-VL,后者凭借其独特的多模态处理能力脱颖而出。Qwen2-VL 拥有三项关键特性:简单动态分辨率机制、多模态旋转位置嵌入(M-RoPE)以及融合二维与三维卷积的统一框架。此外,为了实现跨多种数据源的多任务高效训练,VLM2Vec-V2 还创新性地引入了灵活的数据采样管道,通过预设采样权重表和交错子批处理策略显著提升了对比学习的稳定性。

VLM2Vec-V2统一图像视频文档检索框架重磅发布插图

在综合了 78 个数据集的严格评估中,VLM2Vec-V2 以 58.0 的最高平均得分超越了多个强基线模型,在图像任务和视频任务上均展现出卓越性能。尽管在视觉文档检索方面略逊于 ColPali 模型,但 VLM2Vec-V2 在多模态学习统一框架上的突破性进展,为未来研究指明了重要方向。

项目地址:https://github.com/TIGER-AI-Lab/VLM2Vec
Hugging Face:https://huggingface.co/VLM2Vec/VLM2Vec-V2.0

划重点:
? VLM2Vec-V2 是一款创新的多模态嵌入学习框架,能够统一图像、视频和视觉文档的检索任务。
? 新模型的评估数据集 MMEB-V2 增加了多种任务类型,显著提升了多模态学习的丰富性和准确性。
? VLM2Vec-V2 在多个任务中表现优异,已成为多模态学习领域的重要基准模型。

最新快讯

2026年03月04日

08:08
2026年3月4日,美国得克萨斯大学奥斯汀分校研究团队在超薄二维磁性材料中,随温度降低依次观测到两种罕见磁性状态。该实验首次完整验证了上世纪70年代提出的二维“六态时钟模型”。研究在原子级厚度材料中开展,揭示了维度受限下磁序的新机制。成果为二维磁性基础研究及纳米尺度磁器件开发提供关键实验支撑,有望推动超紧凑型信息技术发展。相关论文发表于《自然·材料》。
08:08
2025年第四季度,全球电视出货量达6150万台,整体保持稳定。受补贴退坡及前期消费透支影响,中国市场出货量同比下降25.3%。TCL与海信转战海外,推动其在北美市场合并份额升至30.7%(同比+2.1个百分点)。Omdia指出,中国品牌正以盈利为导向提升战略敏捷性,并加速布局Mini LED高端产品线;同期OLED电视出货同比增长8.6%。
08:08
2026年3月3日,Anthropic宣布在其编程工具Claude Code中逐步推送全新语音模式。该功能内置于底层架构,获内测权限的用户可在欢迎界面直接启用。开发者长按空格键即可语音输入开发需求,松开即发送执行,显著降低操作负担。首批约5%用户于3月4日起尝鲜,后续数周将分批扩大覆盖。语音功能免费向所有订阅用户(Pro、Max、Team及Enterpri...
08:08
微新创想:3月4日 加拿大滑铁卢大学领衔的国际科研团队发布了一项新研究 提出了一种可增强大语言模型‘人类智慧’的训练方法 该方法聚焦于支持明智推理的新型模型架构 并配套构建了衡量AI智慧水平的评估基准 研究在《认知科学趋势》最新期刊发表 此举旨在突破当前AI在常识推理 价值权衡与情境适应等方面的局限 推动AI向更类人的认知能力演进
08:08
微新创想:3月4日,美国杰克逊实验室与麻省理工学院联合研发出新型微针贴片,可在皮肤表面无痛、无创采集人体关键免疫细胞。这项突破性技术无需抽血或活检,通过微米级可溶性针阵列穿透角质层,特异性捕获树突状细胞等免疫细胞。研究团队在临床前模型中验证了其有效性,为动态免疫监测和个性化疫苗响应评估提供了一种全新的工具。该成果发表于《自然·生物医学工程》,标志着免疫检测技...
08:08
微新创想:2026年3月4日8时 三峡南线船闸正式启动年度计划性停航检修 此次检修是自2003年三峡船闸通航以来的第9次计划性停航。检修工作将持续约35天 由长江三峡通航管理局统一组织与实施 检修工作主要集中在湖北省宜昌市三峡水利枢纽南线船闸区域 包括闸门 启闭机 电气系统以及助航设施等多个关键部分的全面维护和技术升级 通过此次检修 三峡南线船闸将全面提升通...
07:37
微新创想:3月11日,苹果将在美国旧金山举办的游戏开发者大会(GDC)上举行三场专题演讲,全面推动其游戏生态建设。首场演讲将聚焦苹果软硬件协同开发,深入探讨如何通过系统级优化提升游戏性能与用户体验。这一环节不仅展示了苹果在硬件与软件整合方面的技术实力,也为开发者提供了宝贵的参考和灵感。 次场演讲由CD Projekt Red带来,将详细解析《赛博朋克2077...
07:37
微新创想:河北维达康生物科技股份有限公司在2026年3月4日前于河北证监局完成IPO辅导备案 辅导机构为中信建投证券 公司成立于2021年 注册资本达到1.4亿元 注册地设在河北省保定市满城区于家庄镇 公司专注于膳食补充剂 天然色素 香料以及医药中间体等合成生物学产业化领域 作为国家认定的“专精特新”小巨人企业 公司在科技创新方面表现突出 牵头承担了河北省“...
07:37
微新创想:2026年3月3日晚,苹果公司正式发布全新Studio Display及Studio Display XDR显示器。两款产品专为Mac优化,普通版起售价11999元,XDR版24999元起。新显示器采用100%再生铝支架,标准版屏幕含80%再生玻璃,系苹果首次达成该环保指标;包装盒为可折叠全纤维设计,便于拆解回收。此举旨在降低运输与回收环节的环境负...
07:37
微新创想:2026年3月3日,谷歌正式推出Gemini 3.1 Flash-Lite模型,宣称为其速度最快、成本效益最高的Gemini 3系列轻量级模型。该模型即日起向开发者开放预览版,可通过Google AI Studio的Gemini API及企业级Vertex AI平台调用。这一发布标志着谷歌在大模型领域持续发力,进一步拓展其在AI应用中的影响力。 G...
07:36
微新创想:2026年3月3日晚,苹果正式推出Studio Display XDR专业显示器。这款27英寸的5K Retina XDR屏幕采用了先进的mini-LED背光技术,带来了卓越的显示效果。其HDR峰值亮度高达2000尼特,确保了在各种光照条件下都能呈现出细腻的色彩与高对比度。同时,该显示器支持120Hz自适应刷新率,为用户提供流畅的视觉体验。 微新创...
06:55
微新创想:3月4日,新闻集团与Meta Platforms宣布达成多年期人工智能内容授权协议。协议为期至少三年,自2026年起生效。该协议标志着两家公司在人工智能领域迈出了重要一步。 微新创想:根据协议内容,Meta将每年向新闻集团支付最高5000万美元。这笔费用将用于获取新闻集团旗下知名媒体如《华尔街日报》《泰晤士报》等的内容授权。这些内容将被用于AI模型...