阿里开源WebWatcher多模态智能体突破研究瓶颈

阿里巴巴自然语言处理团队正式发布WebWatcher,一款突破性的开源多模态深度研究智能体,旨在打破当前闭源系统与开源Agent在多模态深度研究领域的局限。这款创新工具通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种先进工具,能够像人类研究员一样高效处理复杂的多模态任务,展现出卓越的视觉理解力、逻辑推理能力、知识调用能力、工具调度能力和自我验证能力。

尽管市面上已有如OpenAI的DeepResearch等闭源系统在文本深度研究方面表现优异,但它们大多局限于纯文本环境,难以应对现实世界中包含图像、图表和混合内容的复杂场景。而现有的开源Agent也面临两大明显瓶颈:一类是专注于文本检索的Agent,虽能整合信息,却无法处理图像;另一类是视觉Agent,虽能识别图像,却缺乏跨模态推理和多工具协同能力。WebWatcher正是为解决这些瓶颈而精心设计的。

WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,其核心目标在于让多模态Agent在高难度多模态深度研究任务中实现灵活推理和多工具协作。为此,研究团队构建了一个全自动多模态数据生成流程,通过随机游走收集跨模态知识链,并引入信息模糊化技术,有效提升任务的不确定性和复杂性。所有复杂问题样本均通过QA-to-VQA转换模块扩展为多模态版本,进一步强化模型的跨模态理解能力。

在高质量推理轨迹构建与后训练方面,WebWatcher创新性地采用了Action-Observation驱动的轨迹生成方法。通过收集真实的多工具交互轨迹并进行监督微调(SFT),模型能在训练初期快速掌握多模态ReAct式推理和工具调用的基本模式。随后,模型进入强化学习阶段,通过GRPO进一步提升多模态Agent在复杂环境下的决策能力。

阿里开源WebWatcher多模态智能体突破研究瓶颈插图1

为全面验证WebWatcher的卓越能力,研究团队推出了BrowseComp-VL,这是BrowseComp在视觉-语言任务上的重要扩展版本,旨在逼近人类专家的跨模态研究任务难度。在多轮严格评测中,WebWatcher在复杂推理、信息检索、知识整合以及聚合类信息寻优等关键任务上全面超越当前主流的开源与闭源多模态大模型。

具体表现方面,在人类终极考试(Humanity’s Last Exam,HLE-VL)这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数强势夺冠,大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等顶尖模型。在更贴近真实多模态搜索的MMSearch评测中,WebWatcher的Pass@1得分高达55.3%,显著超越Gemini2.5-flash(43.9%)和GPT-4o(24.1%)。在LiveVQA评测中,WebWatcher的Pass@1成绩达到58.7%,同样领先于其他主流模型。而在最具综合挑战的BrowseComp-VL基准上,WebWatcher以27.0%的平均得分(Pass@1)遥遥领先,成绩提升超过一倍。

WebWatcher的完整代码和资源已开源,欢迎开发者访问仓库地址:https://github.com/Alibaba-NLP/WebAgent。这一突破性成果不仅为多模态深度研究领域带来了新的可能性,也为人工智能技术的实际应用开辟了更广阔的前景。

最新快讯

2026年01月14日

08:43
近日,江苏发生的一起家庭事件引发广泛关注并登上热搜。一位妻子因全心照顾孩子请假频繁,导致年终奖被扣除。然而,家人的暖心举动却让这份失落化为满满的感动,同时也引发了社会对于家庭责任分工与职场权益的深度讨论。据悉,这位妻子在育儿过程中投入了大量精力,频繁请假虽属无奈,却还是影响了年终奖的发放。得知此事后,丈夫毫不犹豫地转账8000元...
08:43
近日,贵州施秉的一场婚礼上,一段展示新娘满屋嫁妆的视频在网络上引发广泛关注。画面中,一张床上整齐陈列着数十套精致的衣服和首饰,令人目不暇接。据刘先生介绍,这些嫁妆是新娘母亲自女儿年幼时起,便开始一针一线亲手缝制,历经20年时光积累而成。每一件衣物、每一件首饰,都凝聚着新娘母亲的心血与爱意,同时也得到了新娘父亲的大力支持。这份沉甸...
08:43
近日,一位 23 岁女孩夏夏的抗癌故事在网络上引发广泛关注。据媒体报道, 2021 年 6 月,夏夏被确诊患有骨肉瘤,这是一种成骨间叶细胞产生的原发恶性骨或软组织肿瘤,也是最常见的骨恶性肿瘤之一,约占所有恶性骨肿瘤的34%,好发于 10 至 30 岁的年轻人,且男性患者多于女性。面对突如其来的重病,夏夏展现出了惊人的勇气和乐观。...
08:43
马年贺岁纪念币与纪念钞正式开放预约,这一消息迅速点燃了民众的热情,相关话题瞬间冲上微博热搜前五,其中“马年纪念币预约”与“马年纪念币抢不到”更是强势霸榜前二,足见其受欢迎程度。据悉,此次发行的 2026 年贺岁币发行量达 1 亿枚,每枚面额为 10 元; 2026 年贺岁钞发行量同样为 1 亿张,每张面额 20 元。在预约兑换规...
08:12
2026年1月13日,苹果加拿大发布创意广告SLIDE,宣传iPhone 17系列搭载的第二代超瓷晶面板。广告模拟法律谈判场景,律师将iPhone 17 Pro Max屏幕朝下在桌面反复滑行并撞击,展示其耐用性。最终标语“放轻松,这可是iPhone 17”强调产品可靠性。苹果称,新屏幕抗划痕能力达前代iPhone 16的三倍,得益于Ceramic Shie...
08:12
2026年,宝马M部门将推出首款全面电动化的高性能车型,或将命名为iM3。新车基于新世代技术打造,采用四电机独立驱动、专属电池系统及“Heart of Joy”控制核心,动力响应显著提升。车辆配备模拟换挡模式,增强驾驶参与感,并应用Bcomp天然纤维材料,降低碳排放约40%。此举标志着宝马M正式进军纯电高性能领域。
08:12
2026年1月13日,苹果宣布调整软件生态策略,旗下Pages、Numbers、Keynote和Freeform四款应用将结束完全免费时代,转为“免费增值”模式。用户可继续免费使用基础功能,包括文档创建、编辑与协作;但高级功能如AI智能工具、高级模板及“内容中心”的高品质素材库需订阅“Apple Creator Studio”解锁。此举旨在提升专业用户创作...
08:12
2026年1月29日,备受瞩目的全新奔驰S级将揭开神秘面纱,而豪华旗舰迈巴赫版S级也将在随后登场。本次改款阵容堪称一次全面的革新,工程师们对约2700项部件进行了精心升级,从外观设计到内饰配置,从智能科技到动力系统,无不彰显着梅赛德斯-奔驰对卓越品质的不懈追求。 此次改款最引人注目的莫过于动力系统的全面升级。全新S450和S500车型将搭载先进的M256 E...
08:12
2026年1月13日,苹果在发布新应用的同时透露,iOS版Pixelmator将不再获得更新。该应用原为2014年推出的Mac版Pixelmator Classic配套工具,现被标记为“经典版”,虽仍可使用基础修图功能,但已停止维护。与此同时,同团队开发的Photomator应用则将继续独立销售并获得后续更新支持。此举标志着苹果对图像编辑产品线的一次调整,...
08:12
2026年1月14日,美国科罗拉多斯普林斯市警方正式宣布启用一项创新执法技术——自动车辆识别系统(AVIS),该系统不仅具备移动测速功能,更将大幅提升交通管理效率。据悉,首批配备该系统的警车已选用两辆Jeep大切诺基,将在城市多个重点区域进行流动执法。这些高精尖设备将重点监控学校周边、公园入口、施工现场以及居民生活区等关键路段,确保交通安全与秩序。 根据警方...
08:12
2026年1月12日,德国与英国顶尖科学家团队正式宣布达成一项突破性合作,计划利用欧洲首台E级超级计算机“木星”进行史上规模最大的人脑模拟实验。这一雄心勃勃的项目旨在通过超大规模计算模拟,彻底揭示人脑复杂的运作机制,为神经科学领域带来革命性突破。据项目组介绍,高精度模拟将涵盖人脑从神经元到神经网络的多尺度交互过程,有望填补当前认知科学研究的诸多空白。 该项目...
08:12
2026年1月14日,我国自主研发的首台海底地层空间钻探与监测机器人在南海成功完成试验作业,这一重大突破标志着我国深海勘探技术迈入新纪元。该设备由广州海洋地质调查局精心研制,具备深海立体钻探与原位实时监测的核心功能,为我国深海资源开发提供了强有力的技术支撑。 此次试验作业在南海复杂海底环境中展开,充分验证了机器人的自主作业能力与稳定性。作为我国深海科学钻...