苹果AI/ML团队携手哥伦比亚大学研究机构联合打造的多模态大模型“雪貂”(Ferret),在图像识别领域取得了突破性进展。该模型能够精准定位交通信号灯等视觉元素,其性能甚至超越了GPT-4V,显著提升了大模型在“看说答”任务中的准确率。Ferret的核心优势在于其卓越的图文关联能力,为图像理解和多模态任务开辟了新路径。

Ferret的创新之处在于将引用(referring)与定位(grounding)两种空间理解能力有机结合。引用能力使模型能够准确理解指定区域的语义信息,而定位能力则让模型在图像中精准找到对应目标。传统多模态模型往往只能单独实现其中一种能力,而Ferret通过突破性技术,实现了这两种能力的协同工作。其采用的混合区域表示方法尤为关键,该方法融合了离散坐标和连续特征,能够接受点、边界框、自由形状等多种区域输入,并生成精确的定位坐标。这一创新使Ferret在多任务评估中表现优异,涵盖了图像局部区域的引用/定位、语义理解、知识推理等多个维度。

在具体应用中,Ferret能够轻松破解谷歌人机验证码难题,准确识别并标注图像中的交通信号灯。这一成就得益于其出色的语义理解与视觉定位能力,显著提高了描述图像细节的准确性,有效降低了模型幻觉现象。特别值得一提的是,Ferret是由一支全华人团队研发完成,包括苹果AI/ML团队和哥伦比亚大学的研究人员,这一成果充分展现了中国在多模态大模型领域的领先研究实力。

Ferret的研究成果为图像理解和多模态任务提供了全新解决方案,有望在人机交互、智能搜索等领域引发革命性突破。其混合区域表示方法为后续研究提供了重要参考,或将推动多模态大模型进入更高效、更精准的发展阶段。随着技术的不断成熟,Ferret的应用前景将更加广阔,为人工智能领域带来更多创新可能。项目地址:https://github.com/apple/ml-ferret,论文地址:https://arxiv.org/pdf/2310.07704.pdf

最新快讯

2025年12月15日

14:08
微新创想12月15日消息,华为nova 15系列将于12月22日发布,新机外观已经公布。据了解,华为nova15 Ultra将提供带感绿、好搭紫、零度白和幻夜黑四款配色,其中带感绿与好搭紫采用光栅条纹后盖设计,视觉效果更为醒目。从官方海报展示的边框质感来看,nova15 Ultra有望搭载用户期待已久的金属中框,整体质感进一步提...
14:08
微新创想12月15日消息,据Tech星球报道,抖音生活服务近日上线抖音买单”功能,消费者在合作门店使用抖音App扫描官方收款设备,即可跳转至商家专属买单页面完成支付。支付时需手动输入订单金额,经与商家确认后,可选择支付宝、微信支付或抖音支付等方式付款。整个流程均在抖音App内完成,无需跳转其他应用,形成支付闭环。目前,该功能已在...
14:02
2025年12月15日,贝耐特光学科技正式宣布成功完成数千万元人民币规模的A++轮独家融资,由知名投资机构安芯投资独家领投。此次融资不仅彰显了资本市场对贝耐特光学科技创新实力的高度认可,更将为其未来的技术突破与产业升级注入强劲动力。据悉,所获资金将全面投向三大核心领域:一是持续深耕LCoS(硅基液晶)空间光调制器及光谱分析模块的核心技术研发,力求在显示技术领...
14:02
2025年12月13日,中国汽车品牌奇瑞与法国西部汽车俱乐部(ACO)在马来西亚正式签署战略合作协议,标志着奇瑞成为首个正式进军勒芒24小时耐力赛的中国车企。此次合作中,奇瑞旗下高端品牌星途将肩负重任,代表中国汽车品牌开启参与世界顶级耐力赛的新篇章。勒芒赛事由ACO主办,每年6月在法国举行,是全球最著名、最具挑战性的三大汽车赛事之一,以其严苛的赛道环境和卓越...
14:02
2025年12月15日,广西数据集团有限公司正式宣告成立,标志着广西在数字经济领域迈出关键性步伐。该公司法定代表人为周飞,注册资本高达10亿元人民币,彰显了其雄厚的资本实力和发展潜力。作为一家具有地方战略意义的企业实体,广西数据集团有限公司的注册地位于广西壮族自治区,这一地理位置优势为其未来的业务拓展奠定了坚实基础。 在股权结构方面,该公司由多家实力雄厚的机...
14:02
2025年12月15日,贵州茅台股价迎来第四个交易日连续上涨,盘中涨幅一度突破1%。这一积极表现背后,市场传闻公司即将推出"控量"政策成为焦点。针对外界关注,茅台集团相关工作人员明确表示,该政策举措目前仍处于研究阶段,具体的实施方案预计将在12月28日举办的渠道商联谊会上正式公布。 据悉,茅台产品投放始终坚持以终端动销情况为依据,实施精准投放策略。工作人...
14:02
2025年12月15日,中国新能源汽车领域迎来重大合作里程碑。首驱科技与广西柳州市政府正式签署战略协议,宣布将在柳东新区核心区域投资15.21亿元人民币,建设华南地区规模领先的总部基地及智能电动车生产制造中心。这一项目承载着打造区域新能源汽车产业新引擎的宏伟目标,规划年产能高达150万台,将全面聚焦车规级智能两轮电动车的研发与量产,涵盖从核心技术突破到智能化...
14:01
2025年12月,中共西藏自治区委员会正式发布了《“十五五”时期国民经济和社会发展规划建议》,为西藏未来的发展擘画了宏伟蓝图。这份重要文件明确提出,将着力优化开放格局,构建具有西藏特色的对外开放新体系。该体系以拉萨为核心中心,以东部和西部为两翼支撑,同时联动多个口岸,形成全方位、多层次、立体化的开放格局。 作为“一带一路”倡议的重要参与者,西藏将深度融入西部...
14:01
在人工智能浪潮席卷创意产业的当下,一款名为《Codex Mortis》的类《吸血鬼幸存者》游戏横空出世,以惊人的方式宣告自己的存在——从代码到美术,再到音乐,全部由人工智能驱动完成。开发者 Grolaf(又名 Crunchfest)自豪地宣称,这款仅用三个月时间就诞生的独立游戏,是"真正意义上100% AI 生成的游戏"之一。据开发者自述,整个开发过程几乎完...
14:00
谷歌研究院、谷歌 DeepMind 与麻省理工学院近日联合发布的一项突破性研究,颠覆了传统观点中“更多智能体意味着更好结果”的认知。研究团队通过精心设计的180项控制实验,深入探究了多智能体系统在不同任务场景下的实际表现,结果令人惊讶:系统性能波动极大,有的任务效率提升高达81%,而另一些任务却出现了高达70%的性能下降。 研究表明,任务的类型对多智能体系统...
14:00
12月13日,在第二届CCF中国数据大会上,蚂蚁数科重磅宣布将全面开源其核心数据智能体技术Agentar SQL的全套资源,包括学术论文、源代码、预训练模型以及详细的使用指南。这一创新举措旨在推动企业数字化转型,使非专业人员也能通过自然语言轻松进行商业数据查询与分析,构建更精准高效的智能数据分析基座。 作为开源计划的首步,蚂蚁数科率先发布了实时文本转化结构化...
13:38
近日,美国佐治亚州引发社会广泛关注的一则新闻,主角是体重高达276斤的死刑犯斯泰西•汉弗莱斯。这位52岁的囚犯因在2003年犯下持枪抢劫并残忍杀害两名女性的重罪,被依法判处死刑。在行刑前,汉弗莱斯提出了一份令人瞠目结舌的“最后餐食”请求,这份被批准的菜单堪称一场“奢华盛宴”,迅速在网络和社交媒体上掀起轩然大波。 据悉,按照美国仍保留死刑执行州中的惯例,囚犯在...