中山大学美团联手研发X-SAM模型 实现单次多对象精准分割技术突破

中山大学、鹏城实验室与美团联合研发的X-SAM图像分割模型近日正式问世,这款创新性多模态大模型在图像分割领域实现重大突破,将传统Segment Anything Model(SAM)的”分割万物”能力升级为”任意分割”,大幅拓展了模型的适应性与应用范围。相较于传统SAM仅能接受单一视觉提示输入的局限性,X-SAM通过突破性的视觉定位分割(VGS)任务框架,实现了对所有实例对象的精确交互式分割,为多模态大语言模型赋予了前所未有的像素级理解能力。

X-SAM的技术架构融合多项创新设计。模型采用统一的输入输出格式,可灵活处理包括文本描述、点标注在内的多种视觉和文本查询输入。其核心的双编码器架构能够深度解析图像内容与分割特征,而创新的分割连接器通过多尺度信息融合显著提升分割精度。尤为突出的是,X-SAM集成了Mask2Former架构作为分割解码器,实现了单次操作即可同时分割多个目标对象,彻底打破了传统SAM仅能处理单一对象的技术壁垒。这一改进不仅大幅提高处理效率,更为复杂场景下的批量分割任务开辟了新路径。

在模型训练方面,研究团队独创三阶段渐进式训练策略,通过逐步增强的学习过程确保模型性能的稳步提升。经过在20余个主流分割数据集上的全面验证,X-SAM在对话生成分割任务和图文理解任务中均取得领先性能表现,充分验证了其技术方案的卓越有效性。X-SAM的问世为图像分割技术发展指明新方向,为构建更智能的通用视觉理解系统奠定重要技术基础。

中山大学美团联手研发X-SAM模型 实现单次多对象精准分割技术突破插图1

研究团队表示,未来将重点探索X-SAM在视频领域的应用拓展,推动图像与视频分割技术的统一化发展,持续突破机器视觉理解能力的边界。这项研究成果不仅在学术领域具有里程碑意义,其在自动驾驶、医疗影像、工业检测等实际应用场景中的巨大潜力也令人期待。随着模型开源和技术推广,预计将全面推动计算机视觉领域的快速发展。

论文地址:https://arxiv.org/pdf/2508.04655代码地址:https://github.com/wanghao9610/X-SAMDemo地址: https://47.115.200.157:7861

最新快讯

2025年08月19日

19:17
近日,广东深圳发生的一起因生食淡水鱼虾导致全家感染肝吸虫的病例,再次将食品安全问题推至公众视野。肝吸虫,学名华支睾吸虫,是一种寄生性蠕虫,其幼虫常潜伏在淡水鱼虾体内。一旦人类食用未彻底煮熟的感染鱼虾,虫卵便会在肠道内孵化,并逆流至胆管内寄生,最长存活时间可达20至30年。这种寄生虫的感染初期症状较为隐匿,通常表现为轻微的乏力或腹痛,但若长期忽视,可能引发胆管...
19:17
微新创想8月19日讯 罗永浩今日在微博正式推出首期播客节目《罗永浩的十字路口》,携手理想汽车CEO李想展开深度对话。这场长达近四小时的视频访谈不仅回顾了两人近年来的心路历程,更触及了关于人生选择与职业发展的深刻思考。 在访谈尾声,罗永浩向李想抛出一个引人深思的问题:"您想过退休之后的生活吗?"面对这个关于人生终点的设问,李想展现出了独特的辩证思维。他坦言:"...
19:17
声明:本文源自微信公众号《娱乐硬糖》,作者琉音,经站长之家授权转载发布。当前影视圈最令人艳羡的行业,非演唱会莫属。尽管电影业仅在2023年享受了报复性消费的红利,但演唱会行业却连续三年持续受益,且目前尚未显现任何消退迹象。音乐节热度有所回落,而演唱会市场却始终热度不减。中国演出行业协会发布的《2024大型营业性演出市场趋势及特点分析》(以下简称《报告》)显示...
19:17
微新创想8月19日深度报道,今日演员赵露思突然注销微博账号的消息迅速引爆网络,引发广大网友强烈关注。目前,该微博账号已正式失效,无法再查看任何内容。根据微博官方显示,赵露思账号主页明确标注:"该账号因用户自行申请关闭,现已无法查看。" 据悉,此次注销微博账号的导火索源于赵露思此前的一系列公开风波。据多家媒体报道,赵露思近期曾公开发文"喊话"经纪公司银河酷娱,...
18:20
微新创想8月19日重磅消息,备受期待的REDMI Note15 Pro系列将于8月21日晚19:00正式揭幕,届时将同步推出REDMI Note 15 Pro与REDMI Note 15 Pro两款旗舰机型。今日,REDMI再度掀起预热热潮,为即将登场的新机蓄势待发。 REDMI Note15 Pro系列将创下小米品牌历史性突破——成为首款搭载400%大音量...
18:20
上海市经济和信息化委员会携手多部门联合发布《上海市加快推动"AI+制造"发展的实施方案》,为人工智能在制造业的深度应用描绘了清晰的技术路径与发展蓝图。该方案不仅明确了上海在"AI+制造"领域的战略方向,更提出了具体的技术突破目标,旨在推动人工智能与制造业的深度融合。 方案特别强调基础模型在多个维度的技术突破。在多模态算法创新方面,上海将着力提升AI模型对流体...
18:20
Mozilla 今日正式将 Firefox142.0版本推送到稳定发布通道,预计将于下周二全面向全球用户开放。此次更新虽然未带来颠覆性的功能革新,却在底层支持与开发者工具方面进行了重要调整,预计将引发业界对浏览器扩展与本地AI集成的深度讨论。 Firefox142属于Mozilla每月例行发布的主版本更新,核心目标在于提升系统稳定性与功能完善度。值得关注的三...
18:20
Vercel 近期重磅宣布,备受瞩目的 AI 前端开发工具 v0 正式进军移动端市场,即将推出专属 iOS 应用程序。目前官方已全面开启候补名单注册通道,广大开发者和技术爱好者可通过访问官方网站,第一时间加入等待列表,抢先体验这一革命性的 AI 开发利器。Vercel 以“Anything. Anyone. Anywhere.”为核心宣传语,生动诠释了 v0...
17:11
近日,河北张家口崇礼区上演了一场惊心动魄的救援行动。一位年近七旬的老人在山间采蘑菇时遭遇短尾蝮蛇袭击,右手中指不幸被咬,生命一度悬于一线。这起事件不仅凸显了野外活动的潜在风险,也引发了社会对蛇伤救治的广泛关注。 事发当天上午,这位老太太独自前往崇礼区窄面沟村附近的山林,本想收获一篮新鲜的蘑菇。然而,就在她专注于采摘时,一条潜伏的短尾蝮蛇突然发动攻击,咬住了她...
17:11
微新创想8月19日重磅消息,据知名数码博主数码闲聊站最新爆料,有专业设计师基于可靠信息绘制了iPhone 17e的外观渲染图,并首次公开了该机型的详细配置参数。通过对比上一代iPhone 16e,我们发现iPhone 17e最引人注目的变革在于屏幕设计,它将全面升级为灵动岛形态,这标志着苹果手机正式告别刘海屏时代,开启全新交互体验。 作为iPhone 17系...
17:11
江西南昌县罗先生近日在社交平台公开维权,直指前妻隐瞒先天性双子宫及单侧肾缺失的隐疾,并声称这段婚姻给家庭带来沉重负担,因此要求前妻退还部分黄金彩礼。一审法院经审理后作出判决,要求女方返还4万元现金及一枚钻戒,罗先生对此结果并不认可,随即提起了上诉。 根据罗先生分享的二审判决书关键内容显示,法院经过慎重审理后认为,罗先生要求全额返还80%彩礼的主张缺乏法律支持...
17:11
2025年8月18日 上海——备受瞩目的“创客上海2025”暨第十届“创客中国”上海中小企业创新创业大赛复赛阶段圆满收官,这场创新创业的盛宴汇聚了全市18个赛点、7大核心赛道,700余个全国甄选的优质项目同台竞技,上演了一场精彩绝伦的科技创新"硬核"对决 赛道深耕赋能升级 区域特色铸就创新沃土 人工智能赛道多点开花 场景落地加速各赛点全力打通技术落地"最后一...