声明:本文来自于微信公众号 量子位(ID:QbitAI),Semantic-SAM团队投稿,授权微新创想转载发布

比Meta“分割一切”的SAM更全能的图像分割AI,来了!

模型名为Semantic-SAM,顾名思义,在完全复现SAM分割效果的基础上,这个AI还具有两大特点:

  • 语义感知:模型能够给分割出的实体提供语义标签

  • 粒度丰富:模型能够分割从物体到部件的不同粒度级别的实体

用作者自己的话说:

Semantic-SAM,在多个粒度(granularity)上分割(segment)和识别(recognize)物体的通用图像分割模型。

据我们所知,我们的工作是在 SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B 上定义的交互分割任务(promptable segmentation)和其他分割任务(例如,全景分割和部件分割)上多任务联合训练的相互促进作用。

论文来自香港科技大学、微软研究院、IDEA研究院、香港大学、威斯康星大学麦迪逊分校和清华大学等研究单位。

具体详情,一起来看~

  • 论文地址:https://arxiv.org/abs/2307.04767

  • 代码地址:https://github.com/UX-Decoder/Semantic-SAM

  • 在线Demo地址:上述代码仓库的首页

(以下为论文作者投稿)

简介

Semantic-SAM可以完全复现SAM的分割效果并达到更好的粒度和语义功能,是一个强大的vision foundation model。Semantic-SAM 支持广泛的分割任务及其相关应用,包括:

  • Generic Segmentation 通用分割(全景/语义/实例分割)

  • Part Segmentation 细粒度分割

  • Interactive Segmentation with Multi-Granularity Semantics 具有多粒度语义的交互式分割

  • Multi-Granularity Image Editing 多粒度图像编辑

1.1复现SAM

SAM是Semantic-SAM的子任务。我们开源了复现SAM效果的代码,这是开源社区第一份基于DETR结构的SAM复现代码。

1.2超越SAM

  • 粒度丰富性: Semantic-SAM能够产生用户点击所需的所有可能分割粒度(1-6)的高质量实体分割,从而实现更加可控和用户友好的交互式分割。

  • 语义感知性。Semantic-SAM使用带有语义标记的数据集和SA-1B数据集联合训练模型,以学习物体(object)级别和细粒度(part)级别的语义信息。

  • 多功能。Semantic-SAM 实现了高质量的全景,语义,实例,细粒度分割和交互式分割,验证了SA-1B 和其他分割任务的相互促进作用。

只需单击一下即可输出多达6个粒度分割!与 SAM 相比,更可控地匹配用户意图,不用担心鼠标移动很久也找不到想要的分割了~

2. 模型介绍

2.1模型结构

Semantic-SAM的模型结构基于Mask DINO进行开发。Mask DINO是基于DETR框架的统一检测和分割的网络,目前仍然是相同模型size下的SOTA模型。Semantic-SAM的模型结构主要改进在decoder部分,同时支持通用分割和交互式分割。通用分割的实现与Mask DINO相同。交互式分割包括point和box两种形式,其中box到mask不存在匹配的ambiguity,实现方式与通用分割相同,而point到mask的匹配是Semantic-SAM的关键设计。

在Semantic-SAM中,用户的point输入被转换成6个prompt, 每个prompt包含一个可学习的level embedding进行区分。这6个prompt通过decoder产生6个不同粒度的分割结果,以及object和part类别。

2.2训练

为了学到物体级别(object)和部件级别(part)的语义,Semantic-SAM同时从多个数据集中进行学习,如多粒度数据集(SA-1B),物体级别数据集(如COCO),以及部件级别数据集(如Pascal Part)。

为了从联合数据集中学习语义感知性和粒度丰富性,我们引入以下两种训练方法:

解耦物体分类与部件分类的语义学习:为了学习到可泛化的物体和部件语义,我们采用解耦的物体分类和部件分类,以使得只有object标注的数据也可以学习到一些通用的part语义。例如,head是在几乎所有动物上都通用的part,我们期望模型从有标注的dog head,cat head,sheep head等head中学习到可泛化的lion,tiger,panda等head的识别能力。

Many-to-Many的多粒度学习:对于交互式分割中的point输入,Semantic-SAM利用6个prompt去输出多粒度的分割结果,并用包含该点击的所有标注分割来作为监督。这种从多个分割结果到多个分割标注的Many-to-Many的匹配和监督,使得模型能够达到高质量的多粒度分割效果。

3. 实验

3.1SA-1B 与通用分割数据集的联合训练

我们发现,联合训练 SA-1B 和通用分割数据集可以提高通用分割性能,如对COCO分割和检测效果有大幅提升。

在训练SA-1B数据的过程中,我们也发现了利用少量SA-1B的数据即可得到很好的效果。

3.2SA-1B 与细粒度分割数据集的联合训练

同样的,联合训练 SA-1B 和细粒度分割数据集可以提高部件分割性能。

4. 可视化

4.1Semantic-SAM的prompt从大量数据中学到了固定模式的表征

Semantic-SAM一共有6个可学习的prompt。对于不同图片的点击,观察每个prompt对应的分割结果,可以发现每个prompt的分割都会对应一个固定的粒度。这表明每个prompt学到了一个固定的语义级别,输出更加可控。

4.2Semantic-SAM与SAM, SA-1B Ground-truth 的比较

每行最左边图像上的红点是用户点击的位置,(a)(b) 分别是Semantic-SAM和 SAM 的分割输出, (c) 是包含用户点击的 Groud-truth 分割。与 SAM 相比,Semantic-SAM具有更好的分割质量和更丰富的粒度,方便用户找到自己需要的分割粒度,可控性更好。

最新快讯

2025年12月15日

15:33
2025年12月15日,国内AI内容安全领域的领军企业缔零科技正式宣布成功完成新一轮数千万元人民币的融资。此次投资由知名风险投资机构中南创投、凯风创投以及专注于科技创新的普朗克创投联合领投。这一重要里程碑不仅彰显了资本市场对缔零科技创新实力的高度认可,更为其未来发展注入强劲动力。 作为AI内容安全风险识别技术的先行者,缔零科技始终致力于通过前沿技术解决内容安...
15:33
2025年12月14日,三星正式发布其创新SmartThings AI节能模式,该技术成功将高能效洗衣机的能源消耗降低了惊人的30%。这一显著成果的数据来源是碳信托机构对全球126个国家约18.7万台智能家电的全面使用调查,时间跨度为2024年7月至2025年6月。根据实测数据,启用该节能模式后,累计节省电力高达5.02吉瓦时,这一电量足以满足首尔约14,0...
15:33
2025年12月15日,全球领先的住宿体验平台Airbnb爱彼迎正式发布了《2026年春节出境游趋势》报告。这份权威报告揭示了令人瞩目的数据:中国旅行者在春节假期前后计划出境游的搜索量较去年同期激增两倍,这一趋势与国庆黄金周以来的持续出行热潮形成了完美呼应。报告深入剖析了国内用户对海外旅游需求的持续升温现象,并明确指出预计2026年春节将迎来规模空前的出境游...
15:33
2025年12月15日,上海艾迪逊酒店荣幸宣布与享誉全球的瑞士品牌USM以及才华横溢的艺术家Marcin Glod强强联手,共同呈现一场名为「城市拼图」的跨界艺术盛宴。这一创新项目以「模块化城市」为核心概念,通过多元化的艺术形式,深入探讨现代都市中人与空间之间错综复杂的互动关系。 本次「城市拼图」项目精心策划了三大亮点环节。首先是备受瞩目的艺术装置「都市站台...
15:33
2025年12月8日,一位名为LovesWorkin的开发者在使用Claude CLI这款AI编程工具时遭遇了严重数据丢失事故。由于AI系统错误执行了"rm -rf ~/ "命令,导致其Mac电脑上的所有重要文件被瞬间清空。这个命令中的"~"符号代表用户的主目录,而"-rf"参数则意味着强制递归删除,两者结合形成了极具破坏力的操作。令人担忧的是,整个删除过程...
15:33
2023年12月12日,德华安顾人寿保险有限公司传来重大喜讯,成功获得国家金融监督管理总局山东监管局批准,实施高达15.45亿元人民币的增资计划。这一举措标志着公司资本实力的显著提升,注册资本将实现从22.40亿元到37.85亿元的跨越式增长。此次增资的核心动力源自外资股东安顾集团的积极推动,其战略意图在于强化德华安顾在中国市场的资本基础,为未来的业务拓展注...
15:33
2025年12月15日,赛昉科技正式宣布其备受期待的RISC-V架构单板计算机VisionFive 2 Lite全球发售。这款轻量化工业级产品作为VisionFive 2的精简版,完美继承了核心优势,同时以56×85mm的类树莓派紧凑外形,为工业自动化和嵌入式开发领域带来全新解决方案。 搭载专为工业环境优化的降频版JH-7110S SoC,VisionF...
15:33
2025年12月15日,备受瞩目的消息传来,当当网创始人李国庆正式宣告开启人生新篇章——二次创业。他创立了全新品牌“李享生活”,将目光聚焦于线上高端会员店领域,为追求品质生活的消费者打造专属购物体验。李国庆在发布视频时慷慨激昂地表示,新公司将以“品质生活圈层”为核心定位,严控商品加价率,确保在1.25倍以内,力求为会员提供高性价比的优质商品。更为独特的是,首...
15:33
2025年12月15日,科技圈传来重磅消息据资深数码博主独家爆料,苹果首款折叠iPhone将迎来颠覆性设计革新,首次采用侧边Touch ID指纹识别方案,彻底告别3D人脸和超声波指纹技术。这一大胆调整的核心目标在于进一步压缩机身厚度,打造前所未有的轻薄折叠体验。 据悉该机将配备业界领先的强力铰链结构,确保多次开合依然稳固如初。工程机内部配置了7.58英寸...
15:33
12月12日,Canva可画在中国举办了一场盛大的年度分享会,不仅发布了备受期待的《Canva可画中国视觉表达洞察》报告,更正式推出了革命性的Canva AI功能。这场专为中国市场量身打造的盛会,旨在通过技术创新进一步释放视觉创作的无限潜能,显著提升用户的创作效率。 根据最新发布的《Canva可画中国视觉表达洞察》报告,中国创作者正在悄然掀起一场情感表达...
15:33
2025年12月15日,专注于全球海洋水下观测领域的创新企业卫澜深海成功斩获千万元天使轮融资,投资方由知名的天使投资机构英诺天使基金与前沿科技孵化平台奇绩创坛联合领投。这一重要里程碑不仅彰显了资本市场对卫澜深海技术实力的高度认可,更预示着其在海洋科技领域的巨大潜力 作为海洋观测领域的先行者,卫澜深海的核心产品——分布式深远海水下观测节点,凭借其革命性的技...
15:02
2025年,全球AI算力军备竞赛已进入白热化阶段,一家名不见经传的荷兰公司Nebius却以雷霆之势震惊四座,接连斩获微软194亿美元、Meta 30亿美元的超级订单。短短三个月内,这家“新锐”企业营收同比暴增355%,股价飙升210%,更豪言到2026年建成2.5GW算力集群——相当于部署100万至125万块英伟达GPU,年耗电量将逼近三峡大坝发电量的五分之...