声明:本文来自于微信公众号 量子位(ID:QbitAI),Semantic-SAM团队投稿,授权微新创想转载发布

比Meta“分割一切”的SAM更全能的图像分割AI,来了!

模型名为Semantic-SAM,顾名思义,在完全复现SAM分割效果的基础上,这个AI还具有两大特点:

  • 语义感知:模型能够给分割出的实体提供语义标签

  • 粒度丰富:模型能够分割从物体到部件的不同粒度级别的实体

用作者自己的话说:

Semantic-SAM,在多个粒度(granularity)上分割(segment)和识别(recognize)物体的通用图像分割模型。

据我们所知,我们的工作是在 SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B 上定义的交互分割任务(promptable segmentation)和其他分割任务(例如,全景分割和部件分割)上多任务联合训练的相互促进作用。

论文来自香港科技大学、微软研究院、IDEA研究院、香港大学、威斯康星大学麦迪逊分校和清华大学等研究单位。

具体详情,一起来看~

  • 论文地址:https://arxiv.org/abs/2307.04767

  • 代码地址:https://github.com/UX-Decoder/Semantic-SAM

  • 在线Demo地址:上述代码仓库的首页

(以下为论文作者投稿)

简介

Semantic-SAM可以完全复现SAM的分割效果并达到更好的粒度和语义功能,是一个强大的vision foundation model。Semantic-SAM 支持广泛的分割任务及其相关应用,包括:

  • Generic Segmentation 通用分割(全景/语义/实例分割)

  • Part Segmentation 细粒度分割

  • Interactive Segmentation with Multi-Granularity Semantics 具有多粒度语义的交互式分割

  • Multi-Granularity Image Editing 多粒度图像编辑

1.1复现SAM

SAM是Semantic-SAM的子任务。我们开源了复现SAM效果的代码,这是开源社区第一份基于DETR结构的SAM复现代码。

1.2超越SAM

  • 粒度丰富性: Semantic-SAM能够产生用户点击所需的所有可能分割粒度(1-6)的高质量实体分割,从而实现更加可控和用户友好的交互式分割。

  • 语义感知性。Semantic-SAM使用带有语义标记的数据集和SA-1B数据集联合训练模型,以学习物体(object)级别和细粒度(part)级别的语义信息。

  • 多功能。Semantic-SAM 实现了高质量的全景,语义,实例,细粒度分割和交互式分割,验证了SA-1B 和其他分割任务的相互促进作用。

只需单击一下即可输出多达6个粒度分割!与 SAM 相比,更可控地匹配用户意图,不用担心鼠标移动很久也找不到想要的分割了~

2. 模型介绍

2.1模型结构

Semantic-SAM的模型结构基于Mask DINO进行开发。Mask DINO是基于DETR框架的统一检测和分割的网络,目前仍然是相同模型size下的SOTA模型。Semantic-SAM的模型结构主要改进在decoder部分,同时支持通用分割和交互式分割。通用分割的实现与Mask DINO相同。交互式分割包括point和box两种形式,其中box到mask不存在匹配的ambiguity,实现方式与通用分割相同,而point到mask的匹配是Semantic-SAM的关键设计。

在Semantic-SAM中,用户的point输入被转换成6个prompt, 每个prompt包含一个可学习的level embedding进行区分。这6个prompt通过decoder产生6个不同粒度的分割结果,以及object和part类别。

2.2训练

为了学到物体级别(object)和部件级别(part)的语义,Semantic-SAM同时从多个数据集中进行学习,如多粒度数据集(SA-1B),物体级别数据集(如COCO),以及部件级别数据集(如Pascal Part)。

为了从联合数据集中学习语义感知性和粒度丰富性,我们引入以下两种训练方法:

解耦物体分类与部件分类的语义学习:为了学习到可泛化的物体和部件语义,我们采用解耦的物体分类和部件分类,以使得只有object标注的数据也可以学习到一些通用的part语义。例如,head是在几乎所有动物上都通用的part,我们期望模型从有标注的dog head,cat head,sheep head等head中学习到可泛化的lion,tiger,panda等head的识别能力。

Many-to-Many的多粒度学习:对于交互式分割中的point输入,Semantic-SAM利用6个prompt去输出多粒度的分割结果,并用包含该点击的所有标注分割来作为监督。这种从多个分割结果到多个分割标注的Many-to-Many的匹配和监督,使得模型能够达到高质量的多粒度分割效果。

3. 实验

3.1SA-1B 与通用分割数据集的联合训练

我们发现,联合训练 SA-1B 和通用分割数据集可以提高通用分割性能,如对COCO分割和检测效果有大幅提升。

在训练SA-1B数据的过程中,我们也发现了利用少量SA-1B的数据即可得到很好的效果。

3.2SA-1B 与细粒度分割数据集的联合训练

同样的,联合训练 SA-1B 和细粒度分割数据集可以提高部件分割性能。

4. 可视化

4.1Semantic-SAM的prompt从大量数据中学到了固定模式的表征

Semantic-SAM一共有6个可学习的prompt。对于不同图片的点击,观察每个prompt对应的分割结果,可以发现每个prompt的分割都会对应一个固定的粒度。这表明每个prompt学到了一个固定的语义级别,输出更加可控。

4.2Semantic-SAM与SAM, SA-1B Ground-truth 的比较

每行最左边图像上的红点是用户点击的位置,(a)(b) 分别是Semantic-SAM和 SAM 的分割输出, (c) 是包含用户点击的 Groud-truth 分割。与 SAM 相比,Semantic-SAM具有更好的分割质量和更丰富的粒度,方便用户找到自己需要的分割粒度,可控性更好。

最新快讯

2025年08月05日

22:29
微新创想8月5日重磅消息,小米SU7的强劲对手正式登场,它就是全新一代小鹏P7。这款纯电轿跑以独特的设计语言脱颖而出,辨识度极高,并始终坚持以运动感为核心定位。就在今日,小鹏汽车发布了该车的内饰官方图片,其中多处元素令人眼前一亮。 全新小鹏P7配备了极具运动气息的仪表屏,其造型与领克当前使用的窄条状设计如出一辙,并支持多种模式切换。从仪表盘显示的90%电...
22:29
微新创想8月5日深度报道 8月2日,浙江某高速公路上演惊心动魄的雷击事故。据现场行车记录仪捕捉到的画面显示,暴雨倾盆中一道闪电骤然撕裂天空,精准地击中高速路中央隔离带,而一辆行驶中的轿车左前部恰好成为落点,瞬间迸发刺眼火花。紧随其后的多辆车紧急制动,涉事车辆也迅速切换至应急车道。这一惊险时刻迅速引发网络热议,不少网友调侃"车相当于移动的法拉第笼"。 事实...
22:29
福克斯公司于北京时间2025年8月5日震撼发布了其2025年第二季度的财务报告,数据显示公司营收与利润双双超越市场预期,展现出强劲的增长势头。得益于广告业务稳步扩张、附属费用合理增长以及流媒体平台Tubi的卓越表现,公司整体营收达到了32.9亿美元,较去年同期实现了6.3%的显著增长。更为亮眼的是,经调整后的每股利润高达1.27美元,不仅大幅超出分析师预期,...
22:29
2025年8月5日,北京时间,谷歌股价走势备受市场瞩目。尽管早盘一度大幅攀升,但午后涨幅逐渐收窄,最终以微弱上涨0.9%报收。这一表现反映出市场对谷歌最新发布的财务报告及整体业务运营的复杂反应。 近期,谷歌股价波动剧烈,其股价一度飙升,主要得益于投资者对该公司最新财报的积极解读。财报数据显示,谷歌核心广告业务持续保持强劲增长,成为推动公司整体业绩的关键动力。...
22:29
2025年8月5日,中国数字健康行业迎来重大人事变动。知名健康科技公司eMed正式宣布,前X公司首席执行官琳达・亚卡里诺将出任公司新任CEO。这一任命标志着eMed在领导层上的一次重要战略调整,也预示着该公司将在减重健康管理领域迎来新的发展机遇。 eMed作为国内领先的数字健康服务提供商,长期专注于减重健康管理市场,通过创新的居家诊断技术、精密的监考式筛查系...
22:29
2025年8月5日,美国知名卡车发动机制造商康明斯公司正式发布了其第二季度财务报告,数据显示公司业绩表现强劲。受全球发电系统需求激增的强劲推动,康明斯第二季度总营收高达86.4亿美元,不仅成功超越市场预期,更比去年同期实现了显著增长。其中,公司核心的动力系统部门收入表现尤为亮眼,同比增长19%至18.9亿美元,这一成绩主要得益于数据中心建设、新能源项目等领域...
22:29
2025年8月5日,中国国务院办公厅正式印发《关于逐步推行免费学前教育的意见》,宣布从当季起全面免除公办幼儿园学前一年保教费用,这一政策将惠及数百万学龄前儿童家庭,标志着我国教育公平迈出重要一步。同日,工信部等七部门联合发布《关于促进数字基础设施高质量发展的指导意见》,明确将加大对5G网络、工业互联网平台等新型基础设施建设的金融支持力度,为数字经济发展注入强...
22:29
2025年8月5日,纳斯达克中国金龙指数迎来小幅攀升,整体市场呈现震荡上扬态势。其中,互联网文化板块表现亮眼,哔哩哔哩与知乎股价双双飙升,涨幅接近3%,彰显出投资者对内容生态持续增长的信心。与此同时,腾讯音乐娱乐集团与爱回收也表现不俗,股价均劲升超1%,反映出消费科技领域受市场关注度持续提升。 值得注意的是,部分成长股出现调整迹象。奇富科技与小马智行股价双双...
22:29
一季度苹果公司在印度市场取得了23%的惊人增长,这一亮眼表现充分揭示了高端化趋势的巨大潜力。然而,印度智能手机市场的竞争格局正在发生深刻变化。vivo、三星等国际品牌以及OPPO、Realme、小米等中国品牌纷纷展现出强劲的市场竞争力,显著提升了市场准入门槛。特别是在智能手机AI融合领域,三星等竞争对手已经取得了实质性的技术突破,不断推出创新产品,进一步加剧...
22:29
2025年8月4日,生物科技企业迈威生物突然陷入舆论漩涡,公司发布公告称董事长刘大涛因涉嫌短线交易违规,被上海证券监督管理机构处以警告并罚款60万元人民币的行政处罚。据悉,刘大涛在2022年1月至7月期间,通过他人账户进行股票交易,累计涉及金额高达3300余万元,严重违反了相关证券法规。这一消息公布后,迈威生物股价应声下跌,盘中跌幅一度达到3.57%,市值遭...
22:29
2025年8月5日,美畅股份正式发布重要公告,披露了公司近期在资本运作方面的积极进展。根据公告内容,截至7月31日,美畅股份已通过其专用证券账户,采用集中竞价交易方式累计回购股份440900股。此次回购行动的规模达到了总股本的0.0919%,充分展现了公司对自身发展前景的坚定信心以及优化股东权益的战略决心。 此次回购行为不仅体现了美畅股份对资本市场的积极回应...
22:29
8月5日,Palantir股票在开盘后表现强劲,股价上涨8%,成功突破历史新高,公司市值进一步扩大至4000亿美元以上。这一显著涨幅的背后,是市场对Palantir持续增长的坚定信心。此前,知名证券公司Wedbush已将Palantir的目标价从160美元上调至200美元,这一举动进一步印证了分析师对该公司未来发展的乐观预期。Palantir作为一家专注于大...