声明:本文来自于微信公众号 量子位(ID:QbitAI),Semantic-SAM团队投稿,授权微新创想转载发布

比Meta“分割一切”的SAM更全能的图像分割AI,来了!

模型名为Semantic-SAM,顾名思义,在完全复现SAM分割效果的基础上,这个AI还具有两大特点:

  • 语义感知:模型能够给分割出的实体提供语义标签

  • 粒度丰富:模型能够分割从物体到部件的不同粒度级别的实体

用作者自己的话说:

Semantic-SAM,在多个粒度(granularity)上分割(segment)和识别(recognize)物体的通用图像分割模型。

据我们所知,我们的工作是在 SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B 上定义的交互分割任务(promptable segmentation)和其他分割任务(例如,全景分割和部件分割)上多任务联合训练的相互促进作用。

论文来自香港科技大学、微软研究院、IDEA研究院、香港大学、威斯康星大学麦迪逊分校和清华大学等研究单位。

具体详情,一起来看~

  • 论文地址:https://arxiv.org/abs/2307.04767

  • 代码地址:https://github.com/UX-Decoder/Semantic-SAM

  • 在线Demo地址:上述代码仓库的首页

(以下为论文作者投稿)

简介

Semantic-SAM可以完全复现SAM的分割效果并达到更好的粒度和语义功能,是一个强大的vision foundation model。Semantic-SAM 支持广泛的分割任务及其相关应用,包括:

  • Generic Segmentation 通用分割(全景/语义/实例分割)

  • Part Segmentation 细粒度分割

  • Interactive Segmentation with Multi-Granularity Semantics 具有多粒度语义的交互式分割

  • Multi-Granularity Image Editing 多粒度图像编辑

1.1复现SAM

SAM是Semantic-SAM的子任务。我们开源了复现SAM效果的代码,这是开源社区第一份基于DETR结构的SAM复现代码。

1.2超越SAM

  • 粒度丰富性: Semantic-SAM能够产生用户点击所需的所有可能分割粒度(1-6)的高质量实体分割,从而实现更加可控和用户友好的交互式分割。

  • 语义感知性。Semantic-SAM使用带有语义标记的数据集和SA-1B数据集联合训练模型,以学习物体(object)级别和细粒度(part)级别的语义信息。

  • 多功能。Semantic-SAM 实现了高质量的全景,语义,实例,细粒度分割和交互式分割,验证了SA-1B 和其他分割任务的相互促进作用。

只需单击一下即可输出多达6个粒度分割!与 SAM 相比,更可控地匹配用户意图,不用担心鼠标移动很久也找不到想要的分割了~

2. 模型介绍

2.1模型结构

Semantic-SAM的模型结构基于Mask DINO进行开发。Mask DINO是基于DETR框架的统一检测和分割的网络,目前仍然是相同模型size下的SOTA模型。Semantic-SAM的模型结构主要改进在decoder部分,同时支持通用分割和交互式分割。通用分割的实现与Mask DINO相同。交互式分割包括point和box两种形式,其中box到mask不存在匹配的ambiguity,实现方式与通用分割相同,而point到mask的匹配是Semantic-SAM的关键设计。

在Semantic-SAM中,用户的point输入被转换成6个prompt, 每个prompt包含一个可学习的level embedding进行区分。这6个prompt通过decoder产生6个不同粒度的分割结果,以及object和part类别。

2.2训练

为了学到物体级别(object)和部件级别(part)的语义,Semantic-SAM同时从多个数据集中进行学习,如多粒度数据集(SA-1B),物体级别数据集(如COCO),以及部件级别数据集(如Pascal Part)。

为了从联合数据集中学习语义感知性和粒度丰富性,我们引入以下两种训练方法:

解耦物体分类与部件分类的语义学习:为了学习到可泛化的物体和部件语义,我们采用解耦的物体分类和部件分类,以使得只有object标注的数据也可以学习到一些通用的part语义。例如,head是在几乎所有动物上都通用的part,我们期望模型从有标注的dog head,cat head,sheep head等head中学习到可泛化的lion,tiger,panda等head的识别能力。

Many-to-Many的多粒度学习:对于交互式分割中的point输入,Semantic-SAM利用6个prompt去输出多粒度的分割结果,并用包含该点击的所有标注分割来作为监督。这种从多个分割结果到多个分割标注的Many-to-Many的匹配和监督,使得模型能够达到高质量的多粒度分割效果。

3. 实验

3.1SA-1B 与通用分割数据集的联合训练

我们发现,联合训练 SA-1B 和通用分割数据集可以提高通用分割性能,如对COCO分割和检测效果有大幅提升。

在训练SA-1B数据的过程中,我们也发现了利用少量SA-1B的数据即可得到很好的效果。

3.2SA-1B 与细粒度分割数据集的联合训练

同样的,联合训练 SA-1B 和细粒度分割数据集可以提高部件分割性能。

4. 可视化

4.1Semantic-SAM的prompt从大量数据中学到了固定模式的表征

Semantic-SAM一共有6个可学习的prompt。对于不同图片的点击,观察每个prompt对应的分割结果,可以发现每个prompt的分割都会对应一个固定的粒度。这表明每个prompt学到了一个固定的语义级别,输出更加可控。

4.2Semantic-SAM与SAM, SA-1B Ground-truth 的比较

每行最左边图像上的红点是用户点击的位置,(a)(b) 分别是Semantic-SAM和 SAM 的分割输出, (c) 是包含用户点击的 Groud-truth 分割。与 SAM 相比,Semantic-SAM具有更好的分割质量和更丰富的粒度,方便用户找到自己需要的分割粒度,可控性更好。

最新快讯

2025年11月23日

10:05
2025年11月23日,哈萨克斯坦江布尔州迎来历史性时刻——50兆瓦联合循环发电项目正式拉开建设帷幕。这一标志性事件不仅代表着中国能源装备制造实力的飞跃,更彰显了东方电气旗下东方汽轮机在重型燃机领域的卓越成就。作为项目核心动力设备供应商,东方汽轮机此次提供的3台G50重型燃机,全部采用自主研发技术,标志着我国首台F级重型燃机成功实现"走出去"战略布局,在国际...
10:05
2025年11月23日,国家发展改革委向陕西氢能产业发展有限公司正式拨款4100万元人民币,专项支持其在榆林市建设的零碳产业园氢能(制氢)示范项目。这笔关键资金由第二批新基金安排,通过中国进出口银行陕西省分行精准投放,将作为项目核心资本金使用。此次资金支持不仅彰显了国家对氢能产业的高度重视,更体现了对推动能源结构绿色转型的坚定决心。 该项目作为氢能产业发展的...
10:05
11月22日12时41分,哥斯达黎加中西部太平洋沿岸近海区域突发5.1级地震,震源深度仅8公里,显示出浅源地震的典型特征。据欧洲-地中海地震监测中心最新发布的数据显示,此次地震发源于哥斯达黎加近海海域,具体经纬度为西经83.5度,北纬10.2度。值得庆幸的是,截至目前,当地尚未收到任何人员伤亡或重大财产损失的报告,这得益于哥斯达黎加完善的防震减灾体系。 目前...
10:05
2025年11月20日,中国科学院天津工业生物技术研究所传来振奋人心的消息,张以恒研究员团队在纤维素制淀粉研究领域取得重大突破,为绿色生物制造技术开辟了全新路径。这一创新成果通过重构合成路径,实现了纤维素全碳素利用,理论淀粉得率首次达到100%,真实转化率更是高达93.3%,标志着该技术已接近工业化应用水平。 研究团队突破性地开发了葡萄糖回收再利用新机制,通...
09:43
新东方创始人俞敏洪近日在南极旅游期间发布内部信庆祝公司32周年,却因信中涉及南极元素引发员工不满,引发舆论广泛关注。11月23日深夜,俞敏洪再发题为《让我们一起努力》的全员信,就此前争议进行诚恳道歉,并详细阐述了自己的行文初衷与工作理念。 俞敏洪首先就信中使用的南极描述和红色字体表达歉意。他解释称,在南极的写作环境确实融入了一些地域特色比喻,但绝非有意炫耀,...
09:43
11月22日最新消息,一则充满生活气息的分享在社交平台引发热议。有网友晒出一张创意照片:一床床被褥整齐地搭在撑开的伞上,在阳光下形成一片片色彩斑斓的"蘑菇云",画面既温馨又充满趣味。不少网友调侃称,晒被子似乎是中国孩子的"传统执念"。这一现象背后,其实蕴含着不少科学道理。 晒被子之所以被广泛推崇,主要是因为它能够有效抑制螨虫生长。干燥的环境能够大幅减少螨虫的...
09:35
2023年11月20日9时19分,备受瞩目的“新舟”60西南增雨机在西安阎良机场成功首飞,标志着我国人工影响天气领域迈入智能化新阶段。这架多用途作业飞机经过5小时23分钟的飞行测试,最终安全降落,正式开启科研试飞新篇章。作为一款专为人工影响天气任务设计的机型,“新舟”60西南增雨机融合了多项尖端技术,包括智能化作业方案生成系统、云层状态智能识别模块以及结冰预...
09:35
2025年11月20日,专注于皮肤健康与体重管理的消费医药公司蔓迪国际正式向香港交易所主板提交上市申请,华泰国际作为独家保荐人全程参与。作为脱发治疗领域的领军品牌,蔓迪®已成为该细分市场的代名词。据最新数据统计,2024年蔓迪国际旗下米诺地尔产品在中国零售市场的占有率高达71%,展现出强大的市场竞争力。 公司近年来业绩表现亮眼,2022年至2024年间,总收...
09:35
2025年11月23日,社交平台X(原推特)对用户个人信息页面进行了重要更新,正式上线“账号所在地”显示功能。这一新功能旨在为用户提供更透明的社交环境,但值得注意的是,该信息可能受到用户近期旅行记录或临时居住地变更的影响,因此存在一定的动态变化和不准确性。用户在使用时需结合实际情况进行判断。 与此同时,X平台于11月15日全新推出的私信功能Chat,正以其卓...
09:35
2025年11月,成都莱普科技股份有限公司正式向上海证券交易所科创板提交了IPO申请,并已获得受理,中信建投证券担任本次发行的保荐机构。从股权结构来看,公司实际控制人叶向明与毛冬通过东骏投资合计控制了66.94%的表决权,彰显其稳固的领导地位。值得注意的是,国家集成电路产业投资基金二期以7.66%的持股比例位列第一大外部股东,凸显了国家对该公司发展的高度认可...
09:35
2025年11月23日,陕西西安公安网络安全保卫部门正式对一家无人机技术公司启动立案侦查程序,起因是该企业自主研发的无人机管理平台遭遇网络攻击,导致部分敏感数据遭非法窃取。经公安机关深入调查发现,该平台存在明显的安全漏洞隐患,同时该公司在数据安全管理方面存在严重缺失:不仅未建立完善的数据安全管理制度,更未对员工开展必要的安全意识培训,缺乏应有的网络安全防护措...
09:35
2025年11月22日晚间,北汽集团正式对外公布一则重大法律成果——法院一审判决认定某知名汽车企业存在擅自使用“北汽”相关标识的不正当竞争行为。这一判决不仅维护了北汽集团的合法权益,更向市场传递了明确的法律信号。根据法院裁决,涉事企业被明确要求立即停止一切含有“北汽”字样的简称使用行为,并需通过公开登报的形式消除不良影响,以恢复市场秩序。更为关键的是,该企业...