港科大OpenSeeD模型早于Meta实现交互式开集分割

2023-07-23 13:09:43 互联网 91 次阅读

声明：本文源自微信公众号量子位（ID:QbitAI），作者张浩，经微新创想授权转载发布。ICCV论文收录名单近日揭晓，其中一项引人注目的成果来自香港科技大学的研究团队——他们提出的图像分割模型OpenSeeD，在显著降低训练成本的同时实现了卓越的分割效果，尤其擅长处理未知物体。更令人瞩目的是，据作者透露，OpenSeeD是首个具备基于box prompts的分割能力的AI模型，其实现时间甚至早于Meta的SAM模型。这篇论文的预印本于今年3月14日（北京时间15日）发布，比SAM早了超过20天。那么，这个备受瞩目的图像分割模型究竟有何过人之处？又是如何突破技术壁垒的呢？（以下内容由投稿者提供）

OpenSeeD的输出效果堪称惊艳。它不仅能胜任经典的实例分割、语义分割和全景分割任务，还能精准识别并分割出从未见过的物体类别。更令人惊叹的是，它能够基于检测框对未知物体进行分割，并准确给出其类别标签。这一系列强大功能，展示了OpenSeeD在开放词表图像分割领域的领先地位。

工作原理方面，OpenSeeD是一个简单而高效的开放词表图像分割框架，可视为MaskDINO在开放词表场景下的扩展版本。传统方法多通过大量图像文本对实现开词表检测或分割，而OpenSeeD则创新性地将物体检测数据与全景分割数据联合训练，填补了该领域的空白。研究团队引入了O365（涵盖365类物体）检测数据和COCO分割（包含133类物体）进行协同训练，这与MaskDINO采用的O365预训练策略有所不同。由于两种数据集存在任务和词表差异，团队通过巧妙设计解决了这一难题。

整体架构上，OpenSeeD分为两个核心部分。左半部分负责通用场景分割，通过解耦前景和背景预测，有效应对O365（仅含前景）与COCO（前景和背景并存）之间的任务差异。右半部分则采用条件预测机制，利用GT box精准预测图像遮罩。为解决数据差异问题，团队对O365数据进行了特殊标注处理。最终，OpenSeeD在多个开放词表任务上超越了当前最佳方法x-decoder，且训练成本大幅降低——x-decoder依赖4M人工标注的图像描述数据，而OpenSeeD仅需0.57M检测数据。研究还发现，仅用5k O365数据即可达到类似效果，证明模型更依赖丰富的视觉概念（种类数）而非海量数据（个体数）。

低成本与高效果并存的OpenSeeD，在开集分割领域展现出强大实力。它不仅能精准分割大量未知物体，在各项开集和闭集指标上均名列前茅，还通过引入O365检测任务显著降低了训练成本。测试结果表明，OpenSeeD在多个零训练样本分割任务上超越X-Decoder、GLIPv2等现有最佳方法，尤其在SeginW任务（大量陌生类别）中表现突出。此外，当模型微调至其他数据集时，其性能始终远超参照标准。在COCO和ADE20K的全景分割、ADE20K和Cityscapes的实例分割任务中，OpenSeeD的表现也与当前顶尖模型不相上下。

论文地址：https://arxiv.org/abs/2303.08131

2025年11月21日

21:00

港科大OpenSeeD模型早于Meta实现交互式开集分割

最新快讯

2025年11月21日

诺和诺德礼来将供应Wegovy与Zepbound减肥药

上汽奥迪E SUV概念车广州全球首秀 2025年11月21日发布

极氪科技合并对价选择截止日期公布 12月5日截止

农业农村部强化生猪产能调控促进产业高质量发展

中材科技半固态电池隔膜完成配方开发进入测试阶段

辽宁成大子公司新疆宝明矿停产原因待查

超卓航科实控人控制权变更筹划停牌引关注

百诚医药授权众神创新独家开发BIOS-0629大中华区权益

SpaceX星舰V3助推器测试爆炸严重损毁马斯克团队紧急应对

酷比魔方iWork GT Ultra二合一平板发布 799.99欧元首发

恒瑞医药9款新药获临床批件加速创新药研发

安琪酵母10.62亿扩建俄罗斯酵母产能