
微新创想:长视频理解的“深水区”终于迎来了权威评测标准。2026 年 3 月 2 日,由微新创想与北京大学联合提出的长视频多模态检索基准 LoVR (Long Video Retrieval) 正式宣布被国际顶级会议 WWW 2026 (The Web Conference) 录用。这一成果填补了业界在真实长视频(Long-form Video)多粒度检索评测领域的空白。
核心突破:解决长视频检索的“三座大山”传统的视频检索基准大多局限于短视频(如 TikTok 风格),难以应对长视频中复杂的语义关联。LoVR 的出现针对性地解决了三大痛点:全粒度覆盖:既支持全视频 (Video-level) 的宏观检索,也支持片段级 (Clip-level) 的微观精确定位,满足了从“搜整部片子”到“搜某个瞬间”的多元需求。
规模化高质量标注:配套了一套创新的标注流水线,通过大模型(VLM)自动化生成、质量自动评分与动态修正相结合,实现了低成本、可扩展的高质量多模态数据构建。真实场景建模:系统性地刻画了长视频检索中的长程语义偏移、信息密度极高等真实难点。
技术规格:40,000+ 精细片段的支撑不仅仅是一个理论框架,更是一个庞大的实战数据库:海量数据:包含 467 个真实长视频,平均时长超过 25 分钟。精细切片:衍生出超过 40,804 个精细片段,每个片段均配有经过人工和机器双重验证的高质量文本描述(Captions)。
语义融合技术:引入了语义融合方法,确保在生成全视频摘要时不会丢失关键的上下文信息,为长程语义建模提供了统一的评测平台。行业观察:校企联研助推 AGI 落地作为与北大校企联合研究的代表作,LoVR 的入选意味着国产数据库领军企业正从单一的存储计算向 “向量检索+多模态理解” 的前沿领域迈进。
随着长视频在流媒体、监控、在线教育等领域的爆发,LoVR 提供的多粒度检索标准将成为未来视频搜索引擎、AI 剪辑助手等应用走向“可靠”的重要基石。
