声明:本文源自微信公众号量子位(ID:QbitAI),作者张浩,经微新创想授权转载发布。ICCV论文收录名单近日揭晓,其中一项引人注目的成果来自香港科技大学的研究团队——他们提出的图像分割模型OpenSeeD,在显著降低训练成本的同时实现了卓越的分割效果,尤其擅长处理未知物体。更令人瞩目的是,据作者透露,OpenSeeD是首个具备基于box prompts的分割能力的AI模型,其实现时间甚至早于Meta的SAM模型。这篇论文的预印本于今年3月14日(北京时间15日)发布,比SAM早了超过20天。那么,这个备受瞩目的图像分割模型究竟有何过人之处?又是如何突破技术壁垒的呢?(以下内容由投稿者提供)
OpenSeeD的输出效果堪称惊艳。它不仅能胜任经典的实例分割、语义分割和全景分割任务,还能精准识别并分割出从未见过的物体类别。更令人惊叹的是,它能够基于检测框对未知物体进行分割,并准确给出其类别标签。这一系列强大功能,展示了OpenSeeD在开放词表图像分割领域的领先地位。
工作原理方面,OpenSeeD是一个简单而高效的开放词表图像分割框架,可视为MaskDINO在开放词表场景下的扩展版本。传统方法多通过大量图像文本对实现开词表检测或分割,而OpenSeeD则创新性地将物体检测数据与全景分割数据联合训练,填补了该领域的空白。研究团队引入了O365(涵盖365类物体)检测数据和COCO分割(包含133类物体)进行协同训练,这与MaskDINO采用的O365预训练策略有所不同。由于两种数据集存在任务和词表差异,团队通过巧妙设计解决了这一难题。
整体架构上,OpenSeeD分为两个核心部分。左半部分负责通用场景分割,通过解耦前景和背景预测,有效应对O365(仅含前景)与COCO(前景和背景并存)之间的任务差异。右半部分则采用条件预测机制,利用GT box精准预测图像遮罩。为解决数据差异问题,团队对O365数据进行了特殊标注处理。最终,OpenSeeD在多个开放词表任务上超越了当前最佳方法x-decoder,且训练成本大幅降低——x-decoder依赖4M人工标注的图像描述数据,而OpenSeeD仅需0.57M检测数据。研究还发现,仅用5k O365数据即可达到类似效果,证明模型更依赖丰富的视觉概念(种类数)而非海量数据(个体数)。
低成本与高效果并存的OpenSeeD,在开集分割领域展现出强大实力。它不仅能精准分割大量未知物体,在各项开集和闭集指标上均名列前茅,还通过引入O365检测任务显著降低了训练成本。测试结果表明,OpenSeeD在多个零训练样本分割任务上超越X-Decoder、GLIPv2等现有最佳方法,尤其在SeginW任务(大量陌生类别)中表现突出。此外,当模型微调至其他数据集时,其性能始终远超参照标准。在COCO和ADE20K的全景分割、ADE20K和Cityscapes的实例分割任务中,OpenSeeD的表现也与当前顶尖模型不相上下。
论文地址:https://arxiv.org/abs/2303.08131