攻克长视频检索难题北大联合OceanBase打造LoVR基准入选WWW2026开启全视频片段级智能检索新范式

2026-03-02 16:18:18 AI动态 1 次阅读

微新创想：长视频理解的“深水区”终于迎来了权威评测标准。2026 年 3 月 2 日，由微新创想与北京大学联合提出的长视频多模态检索基准 LoVR (Long Video Retrieval) 正式宣布被国际顶级会议 WWW 2026 (The Web Conference) 录用。这一成果填补了业界在真实长视频（Long-form Video）多粒度检索评测领域的空白。

核心突破：解决长视频检索的“三座大山”传统的视频检索基准大多局限于短视频（如 TikTok 风格），难以应对长视频中复杂的语义关联。LoVR 的出现针对性地解决了三大痛点：全粒度覆盖：既支持全视频 (Video-level) 的宏观检索，也支持片段级 (Clip-level) 的微观精确定位，满足了从“搜整部片子”到“搜某个瞬间”的多元需求。

规模化高质量标注：配套了一套创新的标注流水线，通过大模型（VLM）自动化生成、质量自动评分与动态修正相结合，实现了低成本、可扩展的高质量多模态数据构建。真实场景建模：系统性地刻画了长视频检索中的长程语义偏移、信息密度极高等真实难点。

技术规格：40，000+ 精细片段的支撑不仅仅是一个理论框架，更是一个庞大的实战数据库：海量数据：包含 467 个真实长视频，平均时长超过 25 分钟。精细切片：衍生出超过 40，804 个精细片段，每个片段均配有经过人工和机器双重验证的高质量文本描述（Captions）。

语义融合技术：引入了语义融合方法，确保在生成全视频摘要时不会丢失关键的上下文信息，为长程语义建模提供了统一的评测平台。行业观察：校企联研助推 AGI 落地作为与北大校企联合研究的代表作，LoVR 的入选意味着国产数据库领军企业正从单一的存储计算向 “向量检索+多模态理解” 的前沿领域迈进。

随着长视频在流媒体、监控、在线教育等领域的爆发，LoVR 提供的多粒度检索标准将成为未来视频搜索引擎、AI 剪辑助手等应用走向“可靠”的重要基石。