苹果Ferret多模态大模型突破谷歌验证码难题性能超GPT-4V

2023-10-13 10:02:42 互联网 87 次阅读

苹果AI/ML团队携手哥伦比亚大学研究机构联合打造的多模态大模型“雪貂”（Ferret），在图像识别领域取得了突破性进展。该模型能够精准定位交通信号灯等视觉元素，其性能甚至超越了GPT-4V，显著提升了大模型在“看说答”任务中的准确率。Ferret的核心优势在于其卓越的图文关联能力，为图像理解和多模态任务开辟了新路径。

Ferret的创新之处在于将引用（referring）与定位（grounding）两种空间理解能力有机结合。引用能力使模型能够准确理解指定区域的语义信息，而定位能力则让模型在图像中精准找到对应目标。传统多模态模型往往只能单独实现其中一种能力，而Ferret通过突破性技术，实现了这两种能力的协同工作。其采用的混合区域表示方法尤为关键，该方法融合了离散坐标和连续特征，能够接受点、边界框、自由形状等多种区域输入，并生成精确的定位坐标。这一创新使Ferret在多任务评估中表现优异，涵盖了图像局部区域的引用/定位、语义理解、知识推理等多个维度。

在具体应用中，Ferret能够轻松破解谷歌人机验证码难题，准确识别并标注图像中的交通信号灯。这一成就得益于其出色的语义理解与视觉定位能力，显著提高了描述图像细节的准确性，有效降低了模型幻觉现象。特别值得一提的是，Ferret是由一支全华人团队研发完成，包括苹果AI/ML团队和哥伦比亚大学的研究人员，这一成果充分展现了中国在多模态大模型领域的领先研究实力。

Ferret的研究成果为图像理解和多模态任务提供了全新解决方案，有望在人机交互、智能搜索等领域引发革命性突破。其混合区域表示方法为后续研究提供了重要参考，或将推动多模态大模型进入更高效、更精准的发展阶段。随着技术的不断成熟，Ferret的应用前景将更加广阔，为人工智能领域带来更多创新可能。项目地址：https://github.com/apple/ml-ferret，论文地址：https://arxiv.org/pdf/2310.07704.pdf