全景分割作为计算机视觉领域的基础任务,通过将图像分解为具有语义意义的区域或对象,在医学影像分析、自动驾驶等关键应用中发挥着不可替代的作用。这项任务结合了语义分割的像素级对象分类能力和实例分割的同类实例区分能力,旨在为每个独立实例生成不重叠的掩码并精确标注类别。多年来,研究者们不断优化全景分割模型的性能,尤其关注全景质量指标的提升。然而,传统的闭词汇限制严重制约了模型的实际应用价值,因为数据集细颗粒度标注的高成本导致语义类别数量有限,成为制约全景分割应用推广的关键难题。
随着计算机视觉社区对开放词汇分割技术的探索,这一限制得到了突破性进展。开放词汇分割范式通过利用文本嵌入作为类别标签嵌入,显著增强了模型处理更广泛类别的能力。CLIP等多模态预训练模型凭借其从海量互联网数据中学习到的图像-文本特征对齐能力,在开放词汇分割领域展现出巨大潜力。尽管近期的SimBaseline和OVSeg等两阶段方法尝试改编CLIP实现开放词汇分割,但它们仍然存在效率低下和分割结果与分类不一致等固有缺陷。
针对这些问题,FC-CLIP单阶段统一框架应运而生。该框架在共享的冻结卷积CLIP backbone上无缝整合了掩码生成和CLIP文本对齐分类功能。其核心设计思路在于:冻结的CLIP backbone能够保留预训练的图像-文本对齐特性,为开放词汇分类提供坚实基础;通过添加轻量级解码器,CLIP backbone可转化为强大的掩码生成器;卷积CLIP在输入尺寸放大时表现出优异的泛化能力,特别适合密集预测任务;单一冻结卷积CLIP backbone带来的极简高效设计,相比先前方法大幅减少了参数量和计算量,显著缩短了训练时间,增强了实用性。
在多个数据集上的实验结果表明,FC-CLIP显著提升了状态转换水平。这一开创性的单阶段框架通过统一掩码生成和文本匹配分类过程,为全景分割向开放词汇场景的扩展提供了强大动力,实现了真正的图像理解和交互。这项突破性工作为端到端的单阶段全景分割方法树立了典范,具有巨大的改进和扩展潜力,将推动全景分割技术迈向更广阔的应用领域。
