苹果AI/ML团队携手哥伦比亚大学研究机构联合打造的多模态大模型“雪貂”(Ferret),在图像识别领域取得了突破性进展。该模型能够精准定位交通信号灯等视觉元素,其性能甚至超越了GPT-4V,显著提升了大模型在“看说答”任务中的准确率。Ferret的核心优势在于其卓越的图文关联能力,为图像理解和多模态任务开辟了新路径。

Ferret的创新之处在于将引用(referring)与定位(grounding)两种空间理解能力有机结合。引用能力使模型能够准确理解指定区域的语义信息,而定位能力则让模型在图像中精准找到对应目标。传统多模态模型往往只能单独实现其中一种能力,而Ferret通过突破性技术,实现了这两种能力的协同工作。其采用的混合区域表示方法尤为关键,该方法融合了离散坐标和连续特征,能够接受点、边界框、自由形状等多种区域输入,并生成精确的定位坐标。这一创新使Ferret在多任务评估中表现优异,涵盖了图像局部区域的引用/定位、语义理解、知识推理等多个维度。

在具体应用中,Ferret能够轻松破解谷歌人机验证码难题,准确识别并标注图像中的交通信号灯。这一成就得益于其出色的语义理解与视觉定位能力,显著提高了描述图像细节的准确性,有效降低了模型幻觉现象。特别值得一提的是,Ferret是由一支全华人团队研发完成,包括苹果AI/ML团队和哥伦比亚大学的研究人员,这一成果充分展现了中国在多模态大模型领域的领先研究实力。

Ferret的研究成果为图像理解和多模态任务提供了全新解决方案,有望在人机交互、智能搜索等领域引发革命性突破。其混合区域表示方法为后续研究提供了重要参考,或将推动多模态大模型进入更高效、更精准的发展阶段。随着技术的不断成熟,Ferret的应用前景将更加广阔,为人工智能领域带来更多创新可能。项目地址:https://github.com/apple/ml-ferret,论文地址:https://arxiv.org/pdf/2310.07704.pdf

最新快讯

2026年02月11日

22:34
微新创想:2026年2月11日,影石创新在年度会议上宣布,其首款双持云台相机“Luna”将于2026年上半年正式发布。这一消息引起了广泛关注,标志着影石创新在高端手持影像设备领域迈出了新的一步。 该机由创始人兼CEO刘靖康主导研发,定位为非Pocket系列的差异化产品。不同于现有的Pocket系列,Luna将采用全新的设计理念,以满足不同用户对拍摄体验的更高...
22:34
微新创想:2026年1月,国家电网智慧车联网平台充电量达7.18亿千瓦时,同比增长9.71%。平台已接入可启停充电桩超111万个,注册用户逾6000万。 春节临近,江苏、浙江、安徽三省高速公路充电需求显著上升。长深、沈海、沪昆高速成为重点保障路段。为应对这一情况,国家电网已加大运维力度,确保充电设施稳定运行。 此外,国家电网还部署了应急设备,以应对可能出现的...
22:34
微新创想:2026年2月11日 理想汽车宣布其自建超充网络正式突破4000座 超充桩超22000根 覆盖全国31个省份、289座城市 其中高速超充站超1200座 实现“九纵九横”18条国家级高速贯通 平均130公里一座 5C超充桩达4500根以上 500余站全系配备 城市端支持VLA自动泊入充电车位及开盖功能 提升补能效率 该网络被官方称为当前车企最大规模自...
22:34
微新创想 2月11日的消息显示,这个春节全网都在期待DeepSeek发布最新的大模型DeepSeek V4。然而,从目前的情况来看,大版本的发布可能不会在春节期间进行。今天DeepSeek悄然更新了一个新版本,带来了不少亮点。根据DeepSeek官方的介绍,这次更新主要集中在提升模型的上下文处理能力,达到了1M的长度,而此前的DeepSeek V3系列仅支持...
22:34
微新创想:春节返乡潮来临 理想汽车补能网络再创新高 理想汽车近日宣布其超充站数量正式突破4000座 超充桩数量超过22000根 这标志着理想汽车在充电基础设施建设方面取得了重要进展 建成了车企中最大规模的自建超充网络 为用户提供了更加便捷高效的补能体验 全国范围内 4000座超充站已覆盖31个省份 289座城市 其中高速超充站数量已超过1200座 实现了九纵...
22:33
微新创想:春节期间聚会难免小酌几杯但若是同桌人喝酒喝出问题同桌的人需要负责吗 荆州市沙市区人民法院审理了这样一起典型案例 据介绍2025年2春节期间龙某在朋友朱某某陪同下前往杨某某家中拜年并参与家庭聚餐 席间杨某某询问就餐人员是否饮酒龙某与杨某德均表示可小酌一杯杨某某遂为龙某倒了约1两散装白酒为杨某德倒了约2两散装白酒其余聚餐人员均未饮酒也无劝酒行为 餐后杨...
22:33
微新创想 京东今日正式宣布入局AI支付领域 推出京东AI付 用户凭借语音即可便捷 安全支付 据悉 该功能搭载京东JoyAI大模型能力 适用于AI助手 智能终端等多种软硬件载体 用户通过简单的语音指令即可完成支付全流程 例如在支付过程中直接语音切换绑定的银行卡 目前 该功能已率先在京东的JoyAI App及其智能眼镜JoyGlance等终端设备上投入使...
22:00
微新创想:2026年2月12日,《人中之龙 极3/外传 Dark Ties》将登陆PS5、Xbox Series X|S、Switch 2及PC平台 本作由世嘉发行,国区标准版售价268元,豪华版338元,包含多套限定装扮与BGM道具 媒体评分解禁,PS5版Metacritic均分75分(43家),PC版73分(16家);IGN给出7分,肯定其战斗系统重制与...
22:00
微新创想:2月11日,苹果App Store中国区免费应用排行榜显示,千问、蚂蚁阿福下载量猛增,包揽总榜前二。近期,千问上线奶茶点单活动,阿福则上线“健康福”活动,直接拉升了两个App的用户下载热情。昨日,蚂蚁阿福还官宣了央视CCTV健康生活合作伙伴合作,进一步推高了市场热度。 从12月发布新版以来,健康AI蚂蚁阿福的增长势头迅猛。该应用不仅在功能上进行了全...
21:28
微新创想:2026年2月11日,安世半导体对外表示,尽管当前面临外部环境挑战,公司核心业务运营依然保持稳健。事件发生于荷兰奈梅亨总部,由公司管理层在例行经营通报中披露。此举旨在回应市场对其供应链稳定性及业绩持续性的关切。 微新创想:公司强调,产能利用率、客户订单交付率及研发投入均维持在健康水平,未出现重大波动。相关表态未涉及具体财务数据,但表明其正通过优化产...
21:28
微新创想:2026年2月11日 美国电信运营商T-Mobile公布2025年第四季度财报数据显示 其后付费用户净增238万 显著高于市场预估的192万 该数据反映公司在激烈市场竞争中持续提升用户获取与留存能力 增长主要来自5G套餐推广 融合业务拓展及竞对用户迁移 公司未披露具体地域分布 但强调全美范围内宽带与移动服务协同拉动效应明显 此次表现提振市场对其20...
21:28
微新创想:2026年2月11日深夜,北京智谱AI正式发布新一代开源旗舰大模型GLM-5。该模型在代码生成(Coding)与智能体(Agent)能力上达到当前开源模型最优水平(SOTA)。 GLM-5在真实编程场景中的体验接近Claude Opus 4.5,尤其擅长处理复杂系统工程与长程Agent任务。这使得它在实际应用中展现出强大的解决问题能力和高效的工作流...