声明:本文源自微信公众号量子位(ID:QbitAI),作者张浩,经微新创想授权转载发布。ICCV论文收录名单近日揭晓,其中一项引人注目的成果来自香港科技大学的研究团队——他们提出的图像分割模型OpenSeeD,在显著降低训练成本的同时实现了卓越的分割效果,尤其擅长处理未知物体。更令人瞩目的是,据作者透露,OpenSeeD是首个具备基于box prompts的分割能力的AI模型,其实现时间甚至早于Meta的SAM模型。这篇论文的预印本于今年3月14日(北京时间15日)发布,比SAM早了超过20天。那么,这个备受瞩目的图像分割模型究竟有何过人之处?又是如何突破技术壁垒的呢?(以下内容由投稿者提供)

OpenSeeD的输出效果堪称惊艳。它不仅能胜任经典的实例分割、语义分割和全景分割任务,还能精准识别并分割出从未见过的物体类别。更令人惊叹的是,它能够基于检测框对未知物体进行分割,并准确给出其类别标签。这一系列强大功能,展示了OpenSeeD在开放词表图像分割领域的领先地位。

工作原理方面,OpenSeeD是一个简单而高效的开放词表图像分割框架,可视为MaskDINO在开放词表场景下的扩展版本。传统方法多通过大量图像文本对实现开词表检测或分割,而OpenSeeD则创新性地将物体检测数据与全景分割数据联合训练,填补了该领域的空白。研究团队引入了O365(涵盖365类物体)检测数据和COCO分割(包含133类物体)进行协同训练,这与MaskDINO采用的O365预训练策略有所不同。由于两种数据集存在任务和词表差异,团队通过巧妙设计解决了这一难题。

整体架构上,OpenSeeD分为两个核心部分。左半部分负责通用场景分割,通过解耦前景和背景预测,有效应对O365(仅含前景)与COCO(前景和背景并存)之间的任务差异。右半部分则采用条件预测机制,利用GT box精准预测图像遮罩。为解决数据差异问题,团队对O365数据进行了特殊标注处理。最终,OpenSeeD在多个开放词表任务上超越了当前最佳方法x-decoder,且训练成本大幅降低——x-decoder依赖4M人工标注的图像描述数据,而OpenSeeD仅需0.57M检测数据。研究还发现,仅用5k O365数据即可达到类似效果,证明模型更依赖丰富的视觉概念(种类数)而非海量数据(个体数)。

低成本与高效果并存的OpenSeeD,在开集分割领域展现出强大实力。它不仅能精准分割大量未知物体,在各项开集和闭集指标上均名列前茅,还通过引入O365检测任务显著降低了训练成本。测试结果表明,OpenSeeD在多个零训练样本分割任务上超越X-Decoder、GLIPv2等现有最佳方法,尤其在SeginW任务(大量陌生类别)中表现突出。此外,当模型微调至其他数据集时,其性能始终远超参照标准。在COCO和ADE20K的全景分割、ADE20K和Cityscapes的实例分割任务中,OpenSeeD的表现也与当前顶尖模型不相上下。

论文地址:https://arxiv.org/abs/2303.08131

最新快讯

2026年02月11日

07:23
微新创想:三星官方宣布,下一代Galaxy Unpacked发布会将于2026年2月25日在美国加州旧金山举行。此次发布会是三星年度旗舰产品的重要亮相时刻,吸引了全球众多科技爱好者的关注。 线上直播将在北京时间2月26日凌晨2点开启。通过直播,全球用户可以第一时间了解三星最新产品的详细信息和创新技术。此次发布会将带来Galaxy S26系列手机,包括S26、...
07:23
微新创想:2026年2月,博主PhoneBuff对iPhone 17 Pro Max进行了详细的续航对比测试 测试涵盖了多种日常使用场景包括短信、网页浏览、视频播放、Instagram和FaceTime等 在5G网络环境下手机亮屏时间达到了10小时22分钟待机时间则为16小时 而在相同使用条件下WiFi模式下的电量剩余达到了25%等效续航时间比5G模式多出约...
07:23
微新创想:苹果公司近日向用户发送邮件,宣布即将移除iTunes中的电影与电视节目愿望清单功能。这一变动标志着苹果在数字内容管理方面迈出了重要一步。 苹果此举旨在全面整合影视服务至Apple TV App。自iOS 17.2起,TV App已成为iOS设备上唯一支持影视剧购买的渠道。这意味着用户将无法再通过iTunes继续使用愿望清单功能来管理他们的影视收藏。...
07:23
微新创想:2026年2月11日 Counterpoint Research发布报告称 2025年全球Micro LED显示面板收入同比增长150% AR智能眼镜在Micro LED市场中占据重要地位 占比达到58% 成为最大细分市场 这一增长趋势反映了该技术在增强现实设备中的广泛应用需求 佳明fēnix 8 Pro成为首款搭载Micro LED屏幕的智能手表...
06:50
微新创想:2026年2月11日,贝莱德中国、富达国际等多家外资机构表示在全球市场震荡加剧的背景下,未来3至5年将逐步降低对美元资产的集中配置,转向更加多元化的资产布局。这一趋势反映出国际投资者对于单一货币资产配置风险的担忧,以及对全球市场结构调整的适应。 微新创想:中国资产因其完整的产业链、强大的创新能力以及相对具吸引力的估值水平,正受到持续增持的青睐。外资...
05:34
微新创想:2026年2月11日,黑石集团宣布投资2亿美元参与人工智能公司Anthropic新一轮融资。据知情人士透露,按3500亿美元估值计算,黑石对Anthropic的持股总规模升至约10亿美元。这表明黑石集团对Anthropic的技术实力和未来发展前景充满信心。 Anthropic总部位于美国旧金山,专注于开发Claude系列大语言模型。公司自成立以来,...
05:34
微新创想:2月11日凌晨4时44分,斐济群岛地区发生了一次6.2级左右的地震。根据中国地震台网的自动测定,此次地震的震中位于南纬20.99度,西经178.42度。地震的震源深度属于深源,这意味着地震能量释放的位置较深,通常对地表的影响相对较小。 此次地震发生后,相关部门迅速进行了监测和评估。目前尚未发布海啸预警,表明地震可能不会引发大规模的海啸灾害。同时,地...
04:29
微新创想:2026年2月11日,阿布扎比投资机构MGX据称正接近参与人工智能公司Anthropic的新一轮融资。该交易涉及阿联酋阿布扎比与美国加州(Anthropic总部所在地)之间的资本合作。MGX与Anthropic的合作将有助于推动中东地区在全球人工智能领域中的影响力。 此次投资被认为是对Anthropic现有业务模式的重要补充。Anthropic作为...
02:56
微新创想:2026年2月11日 美国科技巨头Alphabet在欧洲市场完成债券发售 累计募资110亿美元 此举使其2026年以来全球债券发行总额达300.1亿美元 发债地点为欧洲主要金融中心 发行主体为Alphabet Inc. 资金将用于一般公司用途 包括回购股票 偿还到期债务及营运资本补充 此次发债反映其在低利率环境下优化资本结构的战略意图 亦显示国际投...
01:51
微新创想:2026年2月11日 特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人 此次调整自即日起生效 公司表示此举旨在整合区域销售资源 强化全球市场协同与交付效率 乔·沃德自2019年起在特斯拉任职 历任英国 德国等多国销售高管 具备丰富的国际市场管理经验 公司强调此次任命不涉及组织架构大规模变动 原有区域销售团队保持稳定运行 以确...
00:13
微新创想:2026年2月10日,吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型,车身加长60mm,风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计,彰显出中国智造的独特魅力。 搭载EM-i插混系统,该车型提供两种电池版本,纯电续航最高可达225km。满油满电综合续航达到1730km,大幅提升了用户...
00:13
微新创想:2026年2月,奥迪在中国市场启动入华以来规模最大的产品攻势,全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式,涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。 微新创想:行动旨在应对豪华车市场电动化转型趋势,延续油电并进策略,依托PPC燃油平台与PPE纯电平台,强化本土化智能座舱与驾驶辅助系统适配。 微新...