在多模态嵌入学习这一前沿领域,研究人员正致力于打破不同数据形式之间的壁垒,以实现更高效、更全面的信息理解与处理。近日,由 Salesforce Research、加州大学圣巴巴拉分校、滑铁卢大学及清华大学联合研发的 VLM2Vec-V2 框架横空出世,它代表了一种全新的多模态嵌入学习范式,专注于统一图像、视频和视觉文档的检索任务。

现有的多模态嵌入模型往往局限于特定的数据集,如 MMEB 和 M-BEIR,主要聚焦于自然图像和照片,而这些数据集大多源自 MSCOCO、Flickr 和 ImageNet,严重缺乏对更广泛视觉信息类型的覆盖,例如文档、PDF、网站、视频和幻灯片。这种局限性导致现有模型在文章搜索、网站搜索及 YouTube 视频搜索等实际任务中表现平平。

VLM2Vec-V2 的问世,首先通过扩展 MMEB 数据集打破了这一瓶颈,新增了五种关键任务类型,包括视觉文档检索、视频检索、时间定位、视频分类和视频问答,为多模态学习提供了更全面、更丰富的评估标准。作为一款通用的嵌入模型,VLM2Vec-V2 支持多样化的输入形式,在新型任务和传统图像基准测试中均表现出色,为多模态学习的研究与应用奠定了更灵活、更具扩展性的基础。

VLM2Vec-V2 的核心架构选用了 Qwen2-VL,后者凭借其独特的多模态处理能力脱颖而出。Qwen2-VL 拥有三项关键特性:简单动态分辨率机制、多模态旋转位置嵌入(M-RoPE)以及融合二维与三维卷积的统一框架。此外,为了实现跨多种数据源的多任务高效训练,VLM2Vec-V2 还创新性地引入了灵活的数据采样管道,通过预设采样权重表和交错子批处理策略显著提升了对比学习的稳定性。

VLM2Vec-V2统一图像视频文档检索框架重磅发布插图

在综合了 78 个数据集的严格评估中,VLM2Vec-V2 以 58.0 的最高平均得分超越了多个强基线模型,在图像任务和视频任务上均展现出卓越性能。尽管在视觉文档检索方面略逊于 ColPali 模型,但 VLM2Vec-V2 在多模态学习统一框架上的突破性进展,为未来研究指明了重要方向。

项目地址:https://github.com/TIGER-AI-Lab/VLM2Vec
Hugging Face:https://huggingface.co/VLM2Vec/VLM2Vec-V2.0

划重点:
? VLM2Vec-V2 是一款创新的多模态嵌入学习框架,能够统一图像、视频和视觉文档的检索任务。
? 新模型的评估数据集 MMEB-V2 增加了多种任务类型,显著提升了多模态学习的丰富性和准确性。
? VLM2Vec-V2 在多个任务中表现优异,已成为多模态学习领域的重要基准模型。

最新快讯

2025年11月28日

09:03
没有美术、不会代码,也能在手机上 10 分钟做出一款游戏?杭州反舌鸟科技把AIGC塞进UGC平台,先拿 1000 万海外用户当答案,再伸手向资本市场要了 2000 万元A轮融资——估值直接冲到 2 亿元。领投的是两家上市公司:美股联掌门户、A股电魂网络;跟投名单里杭州本土基金一字排开,显然想押一张“α世代的索尼”船票。这家公司把自研AIGC Agent训练成...
09:03
近日,OpenAI 发布公告称,其所使用的第三方网络分析服务提供商 Mixpanel 遭到网络攻击,部分 API 用户数据可能已被泄露。OpenAI 在声明中表示,Mixpanel 的服务主要用于其前端界面的数据分析,但在收到 Mixpanel 的通知后,OpenAI 已立即停止使用该服务。根据 OpenAI 的说明,此次安全事件并未对其自身系统造成损害,因...
09:03
根据英国国家教育研究基金会最新发布的一份报告,预计到2035年,人工智能(AI)和自动化技术可能使英国300万个 “低技能” 岗位消失。这项研究指出,受影响最严重的职业包括技术工人、机械操作员及各类行政职位。与此同时,AI 的发展也将导致对高技能专业人才的需求增加。图源备注:图片由AI生成,图片授权服务商Midjourney报告显示,尽管 AI 带来的冲击将...
09:03
2025年11月27日,2025亚洲通用航空展在珠海开幕。中国航空发动机集团携58型通航动力产品参展,其中29型为首次亮相。展会集中展示国内外通用航空与低空经济领域最新成果。中国航发展出兆瓦级混合动力系统,适用于3至8吨级eVTOL及10至20吨级电推进飞机。此外,国内首款兆瓦级氢燃料涡轮发动机实现整机性能达标,完成60小时摸底试验,碳排放为零,标志着我国...
09:03
育碧宣布《刺客信条:影》将于2025年12月2日正式登陆Nintendo Switch 2,支持跨平台进度同步。该版本针对便携设备进行深度优化,掌机与底座模式均以稳定30 FPS为目标,采用DLSS技术提升画质与性能,并适配VRR以增强流畅度。尽管保留云、布料模拟等特性,团队对渲染、LOD及NPC密度等作出调整以平衡体验。光线追踪全局光照未启用,采用低规格...
09:03
2025年11月26日,香港大埔宏福苑发生重大火灾,造成人员伤亡和财产损失。中兴通讯宣布向香港相关机构捐赠500台5G云电脑,并提供部署与技术支持。此举旨在协助受灾居民进行信息登记、沟通联络及日常使用,助力灾后恢复工作。公司向遇难者致哀,向伤者及受影响居民表达慰问,并致敬一线救援人员。中兴表示将持续践行社会责任,与香港居民共渡难关。
09:03
2025年11月28日,育碧副游戏总监Simon Lemay-Comtois确认,公司不会为《刺客信条:影》开发第二部类似《淡路之爪》规模的大型DLC。他表示,团队将放弃传统季票模式,转而推出更小、更灵活的内容更新,以响应玩家反馈。此举旨在积累经验并优化未来项目开发。尽管PS平台销量不及《羊蹄山之魂》,但游戏整体表现超出公司预期。今年9月发布的《淡路之爪》...
09:03
2025年11月27日,微星发布名为“PBO BCLK Booster”的新BIOS功能,适用于AM5平台800系列MAX主板,可提升AMD Ryzen 7000/9000系列处理器性能,最高达15%。该功能通过板载时钟发生器调整CPU基频,提供两种预设模式,简化超频流程,并支持与X3D游戏模式叠加使用。测试显示,《毁灭战士:黑暗时代》帧率提升高达15%。...
08:28
REDMI产品经理胡馨心于11月28日透露了安卓版微信的一项重磅更新——聊天功能将支持发送实况照片。这意味着用户在发送照片时,可以选择附加动态画面和声音,让静态影像焕发全新活力。目前该功能正处于逐步推送阶段,部分用户可能需要耐心等待,但官方承诺很快就能与大家见面。 微信朋友圈早已率先支持发布实况图功能。用户在发布时可以选择关闭实况效果,实现静态照片与实况照片...
08:28
11月28日清晨7时45分,山东省威海市荣成市突发3.6级地震,震源深度达9千米。经专业测定,震中坐标位于北纬36.82度、东经122.16度,这一区域属于沿海地带,地质构造较为复杂。目前,当地相关部门尚未收到任何人员伤亡及财产损失的报告,这无疑为此次地震增添了一丝幸运的色彩。 面对这一突发情况,荣成市应急管理部门已迅速启动应急响应机制,第一时间组织专业团队...
08:28
2025年11月28日,天津市正式发布《“十五五”规划建议》,为未来五年城市产业升级擘画宏伟蓝图。这份由中共天津市委精心制定的规划,明确提出将加快推动信创、生物医药、新能源、新材料、航空航天等战略性新兴产业成长为城市支柱产业,形成多元支撑的现代产业体系。规划坚持高端化、智能化、绿色化发展导向,通过系统性布局新型工业化路径,同步推进传统产业数字化、智能化转型升...
08:28
2025年1月至10月期间,霍尔果斯口岸的汽车出口量再创新高,达到34.1万辆,同比增长3.2%,这一成绩不仅刷新了历史记录,更彰显了该口岸在中国汽车出口版图中的核心地位。霍尔果斯口岸地处新疆伊犁,作为中国规模最大的陆路汽车出口口岸,其日均出口量超过600辆,成为连接中国与“一带一路”共建国家的重要桥梁。这些汽车主要销往哈萨克斯坦、乌兹别克斯坦等中亚及俄罗斯...