苹果AI/ML团队携手哥伦比亚大学研究机构联合打造的多模态大模型“雪貂”(Ferret),在图像识别领域取得了突破性进展。该模型能够精准定位交通信号灯等视觉元素,其性能甚至超越了GPT-4V,显著提升了大模型在“看说答”任务中的准确率。Ferret的核心优势在于其卓越的图文关联能力,为图像理解和多模态任务开辟了新路径。

Ferret的创新之处在于将引用(referring)与定位(grounding)两种空间理解能力有机结合。引用能力使模型能够准确理解指定区域的语义信息,而定位能力则让模型在图像中精准找到对应目标。传统多模态模型往往只能单独实现其中一种能力,而Ferret通过突破性技术,实现了这两种能力的协同工作。其采用的混合区域表示方法尤为关键,该方法融合了离散坐标和连续特征,能够接受点、边界框、自由形状等多种区域输入,并生成精确的定位坐标。这一创新使Ferret在多任务评估中表现优异,涵盖了图像局部区域的引用/定位、语义理解、知识推理等多个维度。

在具体应用中,Ferret能够轻松破解谷歌人机验证码难题,准确识别并标注图像中的交通信号灯。这一成就得益于其出色的语义理解与视觉定位能力,显著提高了描述图像细节的准确性,有效降低了模型幻觉现象。特别值得一提的是,Ferret是由一支全华人团队研发完成,包括苹果AI/ML团队和哥伦比亚大学的研究人员,这一成果充分展现了中国在多模态大模型领域的领先研究实力。

Ferret的研究成果为图像理解和多模态任务提供了全新解决方案,有望在人机交互、智能搜索等领域引发革命性突破。其混合区域表示方法为后续研究提供了重要参考,或将推动多模态大模型进入更高效、更精准的发展阶段。随着技术的不断成熟,Ferret的应用前景将更加广阔,为人工智能领域带来更多创新可能。项目地址:https://github.com/apple/ml-ferret,论文地址:https://arxiv.org/pdf/2310.07704.pdf

最新快讯

2025年11月20日

07:22
2025年11月20日,英伟达在最新财报发布后表示,上个季度业绩“是杰出的”。公司位于美国加州圣克拉拉,由CEO黄仁勋领导,此次财报反映了其在全球AI芯片市场的强劲增长。英伟达同时重申了此前提出的5000亿美元年收入长期目标。该承诺基于其数据中心、GPU和AI平台的持续扩展。公司预计未来需求将受生成式AI和云计算推动。
07:22
2025年11月20日,英伟达召开分析师电话会议。会议在美国当地时间晚间举行,公司高管与多位金融分析师参与,就最新财报、业务进展及未来战略进行交流。此次会议重点讨论了公司在人工智能芯片领域的市场表现、数据中心增长动力以及供应链布局情况。通过线上形式,全球投资者同步收听了会议内容,并就下一代GPU技术路线图提出质询。公司表示将持续加大研发投入,巩固其在高性能...
07:22
2025年11月19日,电池级碳酸锂均价达97550元/吨,创年内新高。受锂价持续上涨影响,具备成本优势的盐湖提锂产业链迎来发展契机。我国青海盐湖地区已实现自主“吸附+膜法”提锂技术产业化,经过近20年技术积累,该工艺成为行业主流。随着碳酸锂量价齐升,一批掌握核心技术的盐湖提锂企业正加速释放产业价值。
07:22
2025年11月20日,英伟达首席财务官在当日表示,公司产品需求持续超出预期。该声明发布于北京时间11月20日,由企业官方披露。此举反映出全球对高性能计算和AI芯片的强劲需求。英伟达近年来受益于人工智能技术快速发展,其GPU广泛应用于数据中心、自动驾驶及AI训练等领域。此次表态或预示未来业绩将继续增长。
07:22
2025年11月20日,英伟达首席财务官透露,Rubin芯片预计于2026年下半年开始量产。该芯片是英伟达下一代高性能计算产品,旨在延续其在AI和数据中心市场的领先地位。目前,六年前推出的A100 GPU仍处于满负荷运行状态,显示出持续强劲的市场需求。新芯片的推出将缓解产能压力,并支持未来更复杂的AI模型训练与推理任务。
07:22
2025年11月20日,英伟达CEO黄仁勋在公开讲话中表示,当前人工智能发展并未形成泡沫。他指出,AI技术正深度融入各行各业,算力需求持续增长,反映出真实的技术演进与市场需要。黄仁勋强调,不同于过往的科技热潮,如今AI的应用具备明确的商业价值和基础设施支持。他预测,未来五年AI将显著提升生产力,并推动全球产业升级。此番言论在业界引发广泛关注。
07:22
2025年11月20日,中通快递(开曼)有限公司发布第三季度财报。调整后每ADS收益为3.06元,高于上年同期的2.91元,也超出市场预期的2.52元。此次业绩反映公司在本季度盈利能力稳步提升,经营状况持续向好。财务数据表明其在成本控制与运营效率方面取得积极成效。
07:22
2025年11月20日,瑞士巴塞尔大学研究团队在《细胞·干细胞》发表成果,宣布成功利用人类细胞在实验室构建出三维骨髓组织模型。该模型精准模拟了骨髓中的血管、骨细胞、神经和免疫细胞等复杂微环境,具备高度仿生性。研究旨在为血癌机制研究、新药疗效测试及减少动物实验提供可靠的人源化平台。此项技术突破有望推动血液疾病治疗发展,并提升药物研发效率。
06:19
2025年11月20日,科技巨头英伟达震撼发布了其2026财年第三财季的财务报告,营收数据高达570.1亿美元,同比激增62%,这一惊人成绩远超市场此前预测的551.9亿美元。其中,数据中心业务表现尤为亮眼,营收达到512亿美元,同比增长率高达66%,成为推动公司整体业绩高速增长的核心引擎。展望未来,英伟达对第四财季的营收充满信心,预计将突破650亿美元大关...
05:10
2025年11月20日,科技界传来重磅消息,据财联社独家报道,Meta首席人工智能科学家Yann Lecun已决定将在今年年底正式离开公司。这位深度学习领域的先驱者,计划创立一家专注于前沿AI技术研发的初创企业,开启人生新的篇章。Yann Lecun作为深度学习技术的奠基人之一,其此次离职不仅标志着个人职业生涯的重大转折,更象征着科技巨头与独立创业之间的深刻...
05:10
2025年11月20日,微软公司首席执行官携其核心顾问团队就人工智能经济发展趋势展开了一场深度对话。这场备受瞩目的讨论在微软总部举行,主要参与者包括公司内部高层管理人员以及多位外部技术经济领域的权威顾问。此次会议的核心目标在于全面评估人工智能技术对全球经济结构的深远影响,并据此制定出具有前瞻性的企业战略应对方案。通过系统梳理AI产业的最新动向与未来趋势,微软...
05:10
OpenAI正式宣布面向全球教师推出ChatGPT免费使用计划,为教育工作者提供前所未有的AI教学支持。即日起至2027年12月31日,所有注册教师均可免费享用这一强大工具,助力教学创新与效率提升。这一重要举措充分体现了OpenAI对教育领域的重视,旨在通过人工智能技术赋能教师,推动教育质量迈上新台阶。 OpenAI表示,该免费计划的核心目标在于帮助教师更便...