中山大学美团联手研发X-SAM模型实现单次多对象精准分割技术突破

2025-08-19 16:07:39 AI动态 128 次阅读

中山大学、鹏城实验室与美团联合研发的X-SAM图像分割模型近日正式问世，这款创新性多模态大模型在图像分割领域实现重大突破，将传统Segment Anything Model（SAM）的”分割万物”能力升级为”任意分割”，大幅拓展了模型的适应性与应用范围。相较于传统SAM仅能接受单一视觉提示输入的局限性，X-SAM通过突破性的视觉定位分割（VGS）任务框架，实现了对所有实例对象的精确交互式分割，为多模态大语言模型赋予了前所未有的像素级理解能力。

X-SAM的技术架构融合多项创新设计。模型采用统一的输入输出格式，可灵活处理包括文本描述、点标注在内的多种视觉和文本查询输入。其核心的双编码器架构能够深度解析图像内容与分割特征，而创新的分割连接器通过多尺度信息融合显著提升分割精度。尤为突出的是，X-SAM集成了Mask2Former架构作为分割解码器，实现了单次操作即可同时分割多个目标对象，彻底打破了传统SAM仅能处理单一对象的技术壁垒。这一改进不仅大幅提高处理效率，更为复杂场景下的批量分割任务开辟了新路径。

在模型训练方面，研究团队独创三阶段渐进式训练策略，通过逐步增强的学习过程确保模型性能的稳步提升。经过在20余个主流分割数据集上的全面验证，X-SAM在对话生成分割任务和图文理解任务中均取得领先性能表现，充分验证了其技术方案的卓越有效性。X-SAM的问世为图像分割技术发展指明新方向，为构建更智能的通用视觉理解系统奠定重要技术基础。

研究团队表示，未来将重点探索X-SAM在视频领域的应用拓展，推动图像与视频分割技术的统一化发展，持续突破机器视觉理解能力的边界。这项研究成果不仅在学术领域具有里程碑意义，其在自动驾驶、医疗影像、工业检测等实际应用场景中的巨大潜力也令人期待。随着模型开源和技术推广，预计将全面推动计算机视觉领域的快速发展。

论文地址:https://arxiv.org/pdf/2508.04655代码地址:https://github.com/wanghao9610/X-SAMDemo地址: https://47.115.200.157:7861