
中国科研团队近日发布了一款创新性多模态人工智能模型——DeepEyesV2,该模型具备分析图像、执行代码及进行网络搜索的强大能力。与依赖训练数据积累的传统模型不同,DeepEyesV2通过智能调用外部工具实现卓越表现,在多项任务中甚至超越了规模更大的竞争对手。
在早期实验中,研究团队发现单纯依靠强化学习难以稳定运用工具完成多模态任务。模型初期尝试为图像分析编写Python代码,却频繁生成错误片段,更在训练后期完全放弃工具调用。为攻克这一难题,团队创新性地采用两阶段训练机制:第一阶段着重培养模型融合图像理解与工具使用的协同能力,第二阶段则通过强化学习持续优化这些行为。通过引入顶尖模型生成的优质示例,研究人员确保了工具调用路径的精准性与清晰度。

DeepEyesV2采用三大核心工具类别应对多模态挑战:代码执行工具专攻图像处理与数值分析,图像搜索工具用于检索相似内容,文本搜索工具则提供图像隐含的上下文信息。通过整合图像操作、Python代码执行及跨模态搜索功能,模型能够灵活适应各类查询需求。
为科学评估这一创新方法,研究团队构建了RealX-Bench基准测试体系,全面检验模型在视觉理解、网络搜索和推理能力上的综合表现。测试显示,即便是业界顶尖的专有模型准确率也仅达46%,而人类表现则高达70%。在需要同时运用三种技能的复杂任务中,现有模型的性能更显得力不从心。
令人瞩目的是,DeepEyesV2在多项基准测试中取得突破性成果:数学推理任务准确率达52.7%,搜索驱动任务准确率更高达63.7%。这一成就有力证明,通过精心设计的工具运用策略,即便是规模较小的模型也能显著提升性能表现。目前,DeepEyesV2已通过Hugging Face和GitHub平台公开发布,采用Apache License 2.0授权,为商业应用提供开放支持,必将进一步推动多模态人工智能技术的创新发展。

🌟 DeepEyesV2通过智能工具调用显著提升多模态任务表现,在多项测试中超越大型模型
🔧 采用创新的两阶段训练流程,成功融合图像理解与工具使用能力
📈 多项基准测试成果优异,充分展现小型模型的巨大潜力
