苹果AI/ML团队携手哥伦比亚大学研究机构联合打造的多模态大模型“雪貂”(Ferret),在图像识别领域取得了突破性进展。该模型能够精准定位交通信号灯等视觉元素,其性能甚至超越了GPT-4V,显著提升了大模型在“看说答”任务中的准确率。Ferret的核心优势在于其卓越的图文关联能力,为图像理解和多模态任务开辟了新路径。
Ferret的创新之处在于将引用(referring)与定位(grounding)两种空间理解能力有机结合。引用能力使模型能够准确理解指定区域的语义信息,而定位能力则让模型在图像中精准找到对应目标。传统多模态模型往往只能单独实现其中一种能力,而Ferret通过突破性技术,实现了这两种能力的协同工作。其采用的混合区域表示方法尤为关键,该方法融合了离散坐标和连续特征,能够接受点、边界框、自由形状等多种区域输入,并生成精确的定位坐标。这一创新使Ferret在多任务评估中表现优异,涵盖了图像局部区域的引用/定位、语义理解、知识推理等多个维度。
在具体应用中,Ferret能够轻松破解谷歌人机验证码难题,准确识别并标注图像中的交通信号灯。这一成就得益于其出色的语义理解与视觉定位能力,显著提高了描述图像细节的准确性,有效降低了模型幻觉现象。特别值得一提的是,Ferret是由一支全华人团队研发完成,包括苹果AI/ML团队和哥伦比亚大学的研究人员,这一成果充分展现了中国在多模态大模型领域的领先研究实力。
Ferret的研究成果为图像理解和多模态任务提供了全新解决方案,有望在人机交互、智能搜索等领域引发革命性突破。其混合区域表示方法为后续研究提供了重要参考,或将推动多模态大模型进入更高效、更精准的发展阶段。随着技术的不断成熟,Ferret的应用前景将更加广阔,为人工智能领域带来更多创新可能。项目地址:https://github.com/apple/ml-ferret,论文地址:https://arxiv.org/pdf/2310.07704.pdf