声明:本文来自于微信公众号 量子位(ID:QbitAI),Semantic-SAM团队投稿,授权微新创想转载发布

比Meta“分割一切”的SAM更全能的图像分割AI,来了!

模型名为Semantic-SAM,顾名思义,在完全复现SAM分割效果的基础上,这个AI还具有两大特点:

  • 语义感知:模型能够给分割出的实体提供语义标签

  • 粒度丰富:模型能够分割从物体到部件的不同粒度级别的实体

用作者自己的话说:

Semantic-SAM,在多个粒度(granularity)上分割(segment)和识别(recognize)物体的通用图像分割模型。

据我们所知,我们的工作是在 SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B 上定义的交互分割任务(promptable segmentation)和其他分割任务(例如,全景分割和部件分割)上多任务联合训练的相互促进作用。

论文来自香港科技大学、微软研究院、IDEA研究院、香港大学、威斯康星大学麦迪逊分校和清华大学等研究单位。

具体详情,一起来看~

  • 论文地址:https://arxiv.org/abs/2307.04767

  • 代码地址:https://github.com/UX-Decoder/Semantic-SAM

  • 在线Demo地址:上述代码仓库的首页

(以下为论文作者投稿)

简介

Semantic-SAM可以完全复现SAM的分割效果并达到更好的粒度和语义功能,是一个强大的vision foundation model。Semantic-SAM 支持广泛的分割任务及其相关应用,包括:

  • Generic Segmentation 通用分割(全景/语义/实例分割)

  • Part Segmentation 细粒度分割

  • Interactive Segmentation with Multi-Granularity Semantics 具有多粒度语义的交互式分割

  • Multi-Granularity Image Editing 多粒度图像编辑

1.1复现SAM

SAM是Semantic-SAM的子任务。我们开源了复现SAM效果的代码,这是开源社区第一份基于DETR结构的SAM复现代码。

1.2超越SAM

  • 粒度丰富性: Semantic-SAM能够产生用户点击所需的所有可能分割粒度(1-6)的高质量实体分割,从而实现更加可控和用户友好的交互式分割。

  • 语义感知性。Semantic-SAM使用带有语义标记的数据集和SA-1B数据集联合训练模型,以学习物体(object)级别和细粒度(part)级别的语义信息。

  • 多功能。Semantic-SAM 实现了高质量的全景,语义,实例,细粒度分割和交互式分割,验证了SA-1B 和其他分割任务的相互促进作用。

只需单击一下即可输出多达6个粒度分割!与 SAM 相比,更可控地匹配用户意图,不用担心鼠标移动很久也找不到想要的分割了~

2. 模型介绍

2.1模型结构

Semantic-SAM的模型结构基于Mask DINO进行开发。Mask DINO是基于DETR框架的统一检测和分割的网络,目前仍然是相同模型size下的SOTA模型。Semantic-SAM的模型结构主要改进在decoder部分,同时支持通用分割和交互式分割。通用分割的实现与Mask DINO相同。交互式分割包括point和box两种形式,其中box到mask不存在匹配的ambiguity,实现方式与通用分割相同,而point到mask的匹配是Semantic-SAM的关键设计。

在Semantic-SAM中,用户的point输入被转换成6个prompt, 每个prompt包含一个可学习的level embedding进行区分。这6个prompt通过decoder产生6个不同粒度的分割结果,以及object和part类别。

2.2训练

为了学到物体级别(object)和部件级别(part)的语义,Semantic-SAM同时从多个数据集中进行学习,如多粒度数据集(SA-1B),物体级别数据集(如COCO),以及部件级别数据集(如Pascal Part)。

为了从联合数据集中学习语义感知性和粒度丰富性,我们引入以下两种训练方法:

解耦物体分类与部件分类的语义学习:为了学习到可泛化的物体和部件语义,我们采用解耦的物体分类和部件分类,以使得只有object标注的数据也可以学习到一些通用的part语义。例如,head是在几乎所有动物上都通用的part,我们期望模型从有标注的dog head,cat head,sheep head等head中学习到可泛化的lion,tiger,panda等head的识别能力。

Many-to-Many的多粒度学习:对于交互式分割中的point输入,Semantic-SAM利用6个prompt去输出多粒度的分割结果,并用包含该点击的所有标注分割来作为监督。这种从多个分割结果到多个分割标注的Many-to-Many的匹配和监督,使得模型能够达到高质量的多粒度分割效果。

3. 实验

3.1SA-1B 与通用分割数据集的联合训练

我们发现,联合训练 SA-1B 和通用分割数据集可以提高通用分割性能,如对COCO分割和检测效果有大幅提升。

在训练SA-1B数据的过程中,我们也发现了利用少量SA-1B的数据即可得到很好的效果。

3.2SA-1B 与细粒度分割数据集的联合训练

同样的,联合训练 SA-1B 和细粒度分割数据集可以提高部件分割性能。

4. 可视化

4.1Semantic-SAM的prompt从大量数据中学到了固定模式的表征

Semantic-SAM一共有6个可学习的prompt。对于不同图片的点击,观察每个prompt对应的分割结果,可以发现每个prompt的分割都会对应一个固定的粒度。这表明每个prompt学到了一个固定的语义级别,输出更加可控。

4.2Semantic-SAM与SAM, SA-1B Ground-truth 的比较

每行最左边图像上的红点是用户点击的位置,(a)(b) 分别是Semantic-SAM和 SAM 的分割输出, (c) 是包含用户点击的 Groud-truth 分割。与 SAM 相比,Semantic-SAM具有更好的分割质量和更丰富的粒度,方便用户找到自己需要的分割粒度,可控性更好。

最新快讯

2025年08月05日

20:55
近日,浙江杭州上演了一场惊心动魄的高空坠落救援行动。35岁的二胎母亲王女士在晾晒衣物时遭遇意外,从16楼阳台坠落,却奇迹般生还。这起事件不仅令人揪心,更凸显了高层住户日常生活中的安全风险。 事发当天正值周末,王女士像往常一样完成家务后,准备将洗衣机里的衣物晾晒出来。当她走到阳台时,脚底突然一滑,整个人失去平衡,从16楼高空直坠而下。万幸的是,坠落时重重砸中了...
20:55
浙江台州椒江一农村自建房近日发生惊险火灾,起火点竟藏在一块毫不起眼的插线板中。8月5日,微新创想报道,这起火灾事件再次敲响了家庭用电安全的警钟。 事发当天上午10点半左右,房主将煮好的米饭放入电饭煲并设置为保温模式。然而4小时后,邻居发现窗户处浓烟滚滚,立即报警并通知了房主。房主迅速赶到现场,凭借及时有效的扑救措施成功将火势控制,避免了更大的损失。但令人痛心...
20:55
8月5日,亿帆医药(002019)正式宣布其全资子公司宿州亿帆药业有限公司成功获得国家药品监督管理局签发的褪黑素颗粒境内生产药品注册上市许可申请《受理通知书》。这一重要里程碑意味着该药品的上市申请已正式进入国家药监局的严格审核阶段,为改善6至15岁神经发育障碍儿童入睡困难问题带来了新的希望。 据悉,褪黑素颗粒作为一种专门针对儿童神经发育障碍的辅助治疗药物,其...
20:55
近日,国家发展改革委正式批复复旦大学附属中山医院建设“国家人工智能应用中试基地(医疗领域临床医学科研方向)”,标志着我国在人工智能医疗领域迈入全新发展阶段。该基地将作为国家级创新平台,全面覆盖人工智能医疗产品的研发、测试、验证及临床应用全链条,致力于推动医疗科技与人工智能技术的深度融合。 基地将重点聚焦医学科研创新、智能诊疗系统开发、高端医疗器械研发以及医用...
20:55
8月5日,优德精密(300549.SZ)发布重要公告,宣布其持股5%以上的股东United Creation Management Limited将启动减持计划。根据公告内容,该股东计划自公告发布之日起15个交易日内,通过集中竞价交易方式逐步减持公司股份,减持数量上限为133万股,占公司总股本的比例为1%。此次减持主要出于股东自身资金需求考虑,减持过程将严格...
20:55
8月5日,ST凯利正式发布一则备受市场关注的公告,宣布了一项重大资产重组计划。根据公告内容,公司拟将间接持有的洁诺医疗36.9%股权转让给上海荟添医疗科技有限公司,同时通过定向分红和减资方式逐步退出对景正医疗的投资。这一系列操作不仅体现了ST凯利对自身资产结构的深度优化,更彰显了其在当前市场环境下灵活调整战略布局的决心。 此次股权转让涉及洁诺医疗这一医疗科技...
20:55
2025年8月5日,成都市经济和信息化局传来振奋人心的消息,6月份全市汽车产量突破8万辆,同比增长高达21%,展现出强劲的增长势头。回顾上半年,1-6月汽车产业整体表现同样亮眼,产量和产值分别实现了27.4%和23.9%的显著增长。特别是在新能源汽车领域,产量和产值更是分别飙升了352%和129%,成为推动汽车产业高速发展的关键引擎。这一系列亮眼成绩的背后,...
20:55
2024年,中信证券浙江分公司在浙江区域市场取得了令人瞩目的成绩,实现收入16.03亿元,连续多年稳居省内券商首位。自2002年正式进入浙江市场以来,公司始终坚持以区域深耕为核心战略,历经多次战略整合与业务转型,逐步构建起强大的市场竞争力。目前,中信浙分已拥有62家营业部,形成了以区域经纪业务为支柱的清晰发展路径,在浙江资本市场中占据举足轻重的地位。 三任负...
20:55
2025年8月5日,贵州省市场监督管理局对携程、同程、抖音、美团、飞猪五家国内知名旅游平台展开了一场重要的集中约谈行动。此次约谈的核心目标是规范这些平台的经营行为,特别是针对当前旅游市场中存在的价格乱象进行专项整治。贵州省市场监管局在约谈中明确指出,各平台必须严格遵守相关法律法规,确保价格行为的透明与公正。 约谈内容重点关注了几个关键问题,包括“二选一”的不...
20:55
2025年8月4日,上海证券有限责任公司因一笔金额为93,692元的执行案件,被上海市黄浦区人民法院正式立案受理。值得注意的是,该案件的原告信息并未对外公开,这一细节迅速引发了市场对于公司涉诉背后具体原因的广泛猜测与讨论。 尽管从财务数据来看,上海证券有限责任公司在2024年实现了业绩的显著增长,全年营业收入高达52.56亿元,净利润更是达到了9.53亿元,...
20:55
2025年8月,山东证监局对山东神光咨询服务有限责任公司采取了责令改正的监管措施,起因是该机构部分从业人员公开发布不实信息。这家成立于1994年的老牌咨询公司,在短短三年半时间内已累计收到五次同类处罚,涉及误导性宣传、承诺收益、内部管理缺失等多重违规问题。此次事件中,涉事员工李慧已被监管机构进行警示教育,但具体违规信息尚未公开披露。如此密集的处罚记录,无疑揭...
20:55
2025年8月5日,现货黄金价格遭遇显著下跌,成功突破3350美元/盎司的关键支撑位,最终收报3349.86美元/盎司,当日跌幅高达0.7%。这一波动主要源于市场对全球经济复苏预期的转变以及美元指数的剧烈波动。全球经济复苏前景的不确定性加剧了投资者的担忧情绪,而美元指数的走强则进一步压制了黄金的上涨空间。当前,投资者正密切关注黄金价格的进一步走势以及市场动态...