声明:本文来自于微信公众号 量子位(ID:QbitAI),Semantic-SAM团队投稿,授权微新创想转载发布

比Meta“分割一切”的SAM更全能的图像分割AI,来了!

模型名为Semantic-SAM,顾名思义,在完全复现SAM分割效果的基础上,这个AI还具有两大特点:

  • 语义感知:模型能够给分割出的实体提供语义标签

  • 粒度丰富:模型能够分割从物体到部件的不同粒度级别的实体

用作者自己的话说:

Semantic-SAM,在多个粒度(granularity)上分割(segment)和识别(recognize)物体的通用图像分割模型。

据我们所知,我们的工作是在 SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B 上定义的交互分割任务(promptable segmentation)和其他分割任务(例如,全景分割和部件分割)上多任务联合训练的相互促进作用。

论文来自香港科技大学、微软研究院、IDEA研究院、香港大学、威斯康星大学麦迪逊分校和清华大学等研究单位。

具体详情,一起来看~

  • 论文地址:https://arxiv.org/abs/2307.04767

  • 代码地址:https://github.com/UX-Decoder/Semantic-SAM

  • 在线Demo地址:上述代码仓库的首页

(以下为论文作者投稿)

简介

Semantic-SAM可以完全复现SAM的分割效果并达到更好的粒度和语义功能,是一个强大的vision foundation model。Semantic-SAM 支持广泛的分割任务及其相关应用,包括:

  • Generic Segmentation 通用分割(全景/语义/实例分割)

  • Part Segmentation 细粒度分割

  • Interactive Segmentation with Multi-Granularity Semantics 具有多粒度语义的交互式分割

  • Multi-Granularity Image Editing 多粒度图像编辑

1.1复现SAM

SAM是Semantic-SAM的子任务。我们开源了复现SAM效果的代码,这是开源社区第一份基于DETR结构的SAM复现代码。

1.2超越SAM

  • 粒度丰富性: Semantic-SAM能够产生用户点击所需的所有可能分割粒度(1-6)的高质量实体分割,从而实现更加可控和用户友好的交互式分割。

  • 语义感知性。Semantic-SAM使用带有语义标记的数据集和SA-1B数据集联合训练模型,以学习物体(object)级别和细粒度(part)级别的语义信息。

  • 多功能。Semantic-SAM 实现了高质量的全景,语义,实例,细粒度分割和交互式分割,验证了SA-1B 和其他分割任务的相互促进作用。

只需单击一下即可输出多达6个粒度分割!与 SAM 相比,更可控地匹配用户意图,不用担心鼠标移动很久也找不到想要的分割了~

2. 模型介绍

2.1模型结构

Semantic-SAM的模型结构基于Mask DINO进行开发。Mask DINO是基于DETR框架的统一检测和分割的网络,目前仍然是相同模型size下的SOTA模型。Semantic-SAM的模型结构主要改进在decoder部分,同时支持通用分割和交互式分割。通用分割的实现与Mask DINO相同。交互式分割包括point和box两种形式,其中box到mask不存在匹配的ambiguity,实现方式与通用分割相同,而point到mask的匹配是Semantic-SAM的关键设计。

在Semantic-SAM中,用户的point输入被转换成6个prompt, 每个prompt包含一个可学习的level embedding进行区分。这6个prompt通过decoder产生6个不同粒度的分割结果,以及object和part类别。

2.2训练

为了学到物体级别(object)和部件级别(part)的语义,Semantic-SAM同时从多个数据集中进行学习,如多粒度数据集(SA-1B),物体级别数据集(如COCO),以及部件级别数据集(如Pascal Part)。

为了从联合数据集中学习语义感知性和粒度丰富性,我们引入以下两种训练方法:

解耦物体分类与部件分类的语义学习:为了学习到可泛化的物体和部件语义,我们采用解耦的物体分类和部件分类,以使得只有object标注的数据也可以学习到一些通用的part语义。例如,head是在几乎所有动物上都通用的part,我们期望模型从有标注的dog head,cat head,sheep head等head中学习到可泛化的lion,tiger,panda等head的识别能力。

Many-to-Many的多粒度学习:对于交互式分割中的point输入,Semantic-SAM利用6个prompt去输出多粒度的分割结果,并用包含该点击的所有标注分割来作为监督。这种从多个分割结果到多个分割标注的Many-to-Many的匹配和监督,使得模型能够达到高质量的多粒度分割效果。

3. 实验

3.1SA-1B 与通用分割数据集的联合训练

我们发现,联合训练 SA-1B 和通用分割数据集可以提高通用分割性能,如对COCO分割和检测效果有大幅提升。

在训练SA-1B数据的过程中,我们也发现了利用少量SA-1B的数据即可得到很好的效果。

3.2SA-1B 与细粒度分割数据集的联合训练

同样的,联合训练 SA-1B 和细粒度分割数据集可以提高部件分割性能。

4. 可视化

4.1Semantic-SAM的prompt从大量数据中学到了固定模式的表征

Semantic-SAM一共有6个可学习的prompt。对于不同图片的点击,观察每个prompt对应的分割结果,可以发现每个prompt的分割都会对应一个固定的粒度。这表明每个prompt学到了一个固定的语义级别,输出更加可控。

4.2Semantic-SAM与SAM, SA-1B Ground-truth 的比较

每行最左边图像上的红点是用户点击的位置,(a)(b) 分别是Semantic-SAM和 SAM 的分割输出, (c) 是包含用户点击的 Groud-truth 分割。与 SAM 相比,Semantic-SAM具有更好的分割质量和更丰富的粒度,方便用户找到自己需要的分割粒度,可控性更好。

最新快讯

2026年02月10日

07:17
微新创想:2026年2月9日(周一)OpenAI在美国启动了广告功能的测试。此次测试主要面向免费版用户以及新推出的Go订阅用户,后者需支付每月8美元的费用。而付费用户,如Plus及以上等级的用户,则不受此次广告功能的影响。 广告内容将基于对话主题等匿名数据进行匹配,确保用户在使用过程中不会受到个人隐私信息的泄露。所有广告内容都会明确标注为“赞助内容”,以区别...
06:47
微新创想:2025年全国社会物流总额达到368.2万亿元同比增长5.1%这一数据由中国物流与采购联合会于2026年2月10日正式发布 该增速在全年各季度中保持稳定表现相较于“十四五”期间年均增速5.7%略有下降但仍高于同期GDP增速显示出物流行业持续增长的态势 物流总费用与GDP比率降至历史最低水平这一变化反映出物流效率的持续提升以及产业结构的不断优化表明我...
05:46
微新创想:2026年2月10日,Meta首席执行官扎克伯格宣布公司全新人工智能模型将于今年正式亮相并投入应用。这一消息引发了广泛关注,标志着Meta在人工智能领域迈出了重要一步。 该人工智能模型的核心目标是显著提升多模态理解、推理与生成能力。通过整合文本、图像、音频等多种数据形式,新模型将实现更全面的智能交互体验。这一突破有望为多个行业带来深远影响,尤其是在...
05:46
微新创想:2026年2月10日,美国半导体企业安森美公布2025年第四季度财报。数据显示,公司当季营收达到15.3亿美元,与市场分析师平均预期基本吻合。根据财报指引,安森美预计2026年第一季度的营收将在14.4亿至15.4亿美元之间,区间中值为14.9亿美元。这一预测略低于分析师预期的15.1亿美元。值得注意的是,此次财报并未披露具体的盈利数据以及各地区的...
04:45
微新创想:2026年2月10日,OpenAI在美国向部分免费版及ChatGPT Go订阅用户启动广告功能测试。这一举措标志着OpenAI在探索可持续商业化模式方面迈出了重要一步。 此次广告功能的测试将广告内容展示在聊天界面的底部,并通过‘赞助’标签进行标注,以确保用户能够清晰识别广告信息。这种透明化的处理方式有助于维护用户体验,同时为广告主提供明确的展示位置...
03:14
微新创想:2026年2月10日,耐克旗下匡威品牌宣布启动战略重组,要求全体员工本周起居家办公。此次调整覆盖美国马萨诸塞州贝弗利总部及全球办公点,标志着匡威在品牌发展道路上迈出重要一步。 此次战略重组涉及岗位优化与团队重构,旨在重振销售增长。匡威管理层表示,这一举措是为了更好地适应市场变化,提升运营效率,并为品牌未来的发展奠定坚实基础。 据内部消息透露,重组过...
02:12
微新创想:2月10日,美国股市加密矿企概念板块持续走高。TeraWulf与Cipher Mining股价涨幅均超13%,Applied Digital涨逾9%,IREN涨超7%。此次上涨发生于纽约证券交易所交易时段,主要受比特币价格回升及市场对算力需求预期增强推动。多家机构指出,减半周期临近叠加能源成本优化,正提振行业盈利预期。
02:12
微新创想:2026年2月10日,国际评级机构惠誉宣布确认德国西门子股份公司长期外币发行人违约评级为“A+”,评级展望维持“稳定”。此次确认基于西门子稳健的现金流生成能力、多元化的业务结构及在工业自动化与能源领域的领先地位。 微新创想:惠誉指出,尽管面临宏观经济波动与转型投资压力,西门子依然保持了良好的财务状况。公司财务杠杆处于可控范围内,EBITDA利息覆盖...
02:12
微新创想:2026年2月10日,Alphabet Inc.宣布计划发行约150亿美元的美元债券,该债券已获得超过1000亿美元的认购意向。这一发行规模和认购热情在当前市场环境下显得尤为突出,显示出投资者对人工智能领域优质企业债券的高度关注和信心。 此次债券发行吸引了多家国际知名投行参与承销,显示出市场对其的认可。同时,Alphabet还授权安排了瑞郎及英镑债...
02:12
微新创想:2026年2月9日(当地时间),美国AI数据平台Databricks宣布完成50亿美元股权融资,并获20亿美元新增债务融资额度。本轮融资后公司估值升至1340亿美元,较2025年夏季上一轮估值增长34%。 Databricks总部位于旧金山,由前加州大学伯克利分校教授于2013年创立。公司专注于构建统一的数据与AI分析平台,致力于帮助企业更高效地处...
00:42
微新创想:2026年2月10日,润滑油与燃油特种化学品公司润英联正式发布新型SAE 0W-20添加剂产品P6188。该产品专为满足大众最新VW 50800/50900规范设计,可助力成品油通过认证。 P6188适用于高性能汽油发动机,提升燃油经济性与长效保护性能。这一创新添加剂不仅能够优化发动机运行效率,还能有效减少磨损,延长发动机使用寿命。 润英联表示,该...
00:42
微新创想:2026年2月10日,亿纬锂能与合作伙伴正式签署吉隆坡国际机场(KLIA)光伏储能项目合同。该项目位于马来西亚雪兰莪州,标志着亿纬锂能首次进入马来西亚的关键基础设施领域。根据合同内容,亿纬能源将提供628Ah储能电芯及5MWh储能系统,为机场的能源供应提供稳定支持。 微新创想:此次合作不仅体现了亿纬锂能在全球储能市场的布局深化,也展示了其在推动绿色...