阿里开源WebWatcher多模态智能体突破研究瓶颈

阿里巴巴自然语言处理团队正式发布WebWatcher,一款突破性的开源多模态深度研究智能体,旨在打破当前闭源系统与开源Agent在多模态深度研究领域的局限。这款创新工具通过整合网页浏览、图像搜索、代码解释器和内部OCR等多种先进工具,能够像人类研究员一样高效处理复杂的多模态任务,展现出卓越的视觉理解力、逻辑推理能力、知识调用能力、工具调度能力和自我验证能力。

尽管市面上已有如OpenAI的DeepResearch等闭源系统在文本深度研究方面表现优异,但它们大多局限于纯文本环境,难以应对现实世界中包含图像、图表和混合内容的复杂场景。而现有的开源Agent也面临两大明显瓶颈:一类是专注于文本检索的Agent,虽能整合信息,却无法处理图像;另一类是视觉Agent,虽能识别图像,却缺乏跨模态推理和多工具协同能力。WebWatcher正是为解决这些瓶颈而精心设计的。

WebWatcher的技术方案覆盖了从数据构建到训练优化的完整链路,其核心目标在于让多模态Agent在高难度多模态深度研究任务中实现灵活推理和多工具协作。为此,研究团队构建了一个全自动多模态数据生成流程,通过随机游走收集跨模态知识链,并引入信息模糊化技术,有效提升任务的不确定性和复杂性。所有复杂问题样本均通过QA-to-VQA转换模块扩展为多模态版本,进一步强化模型的跨模态理解能力。

在高质量推理轨迹构建与后训练方面,WebWatcher创新性地采用了Action-Observation驱动的轨迹生成方法。通过收集真实的多工具交互轨迹并进行监督微调(SFT),模型能在训练初期快速掌握多模态ReAct式推理和工具调用的基本模式。随后,模型进入强化学习阶段,通过GRPO进一步提升多模态Agent在复杂环境下的决策能力。

阿里开源WebWatcher多模态智能体突破研究瓶颈插图1

为全面验证WebWatcher的卓越能力,研究团队推出了BrowseComp-VL,这是BrowseComp在视觉-语言任务上的重要扩展版本,旨在逼近人类专家的跨模态研究任务难度。在多轮严格评测中,WebWatcher在复杂推理、信息检索、知识整合以及聚合类信息寻优等关键任务上全面超越当前主流的开源与闭源多模态大模型。

具体表现方面,在人类终极考试(Humanity’s Last Exam,HLE-VL)这一多步复杂推理基准上,WebWatcher以13.6%的Pass@1分数强势夺冠,大幅领先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)和Qwen2.5-VL-72B(8.6%)等顶尖模型。在更贴近真实多模态搜索的MMSearch评测中,WebWatcher的Pass@1得分高达55.3%,显著超越Gemini2.5-flash(43.9%)和GPT-4o(24.1%)。在LiveVQA评测中,WebWatcher的Pass@1成绩达到58.7%,同样领先于其他主流模型。而在最具综合挑战的BrowseComp-VL基准上,WebWatcher以27.0%的平均得分(Pass@1)遥遥领先,成绩提升超过一倍。

WebWatcher的完整代码和资源已开源,欢迎开发者访问仓库地址:https://github.com/Alibaba-NLP/WebAgent。这一突破性成果不仅为多模态深度研究领域带来了新的可能性,也为人工智能技术的实际应用开辟了更广阔的前景。

最新快讯

2025年08月19日

08:47
8月18日,微博话题#孩子脱鞋138cm补票后家长投诉退票#迅速引爆网络,成为公众热议的焦点。据媒体深度报道,近日在上海某知名游乐园发生了一起因儿童身高标准引发的消费纠纷。一位年轻母亲带着孩子前往游乐园时,按照园方公示的"1.1米-1.4米儿童票"优惠政策购买了门票,却在检票环节遭遇意外。工作人员按照规定测量孩子身高,发现为141厘米,要求补缴差价。然而这位...
08:47
开源证券最新研究显示,随着智能驾驶技术加速商业化进程,产业链上下游企业正迎来前所未有的发展机遇。报告指出,具备核心技术优势的主机厂以及在高成长性和机器人领域布局前瞻的零部件供应商,将率先享受这一红利。特别是在自动驾驶领域拥有差异化竞争优势的车企,有望通过技术迭代和市场扩张实现业绩跨越式增长。与此同时,专注于传感器、算法和机器人技术的零部件企业,凭借其高成长性...
08:47
2025年8月19日,备受市场瞩目的北交所新股巴兰仕正式拉开申购帷幕,为投资者带来新的财富机遇。本次巴兰仕新股发行总量约为1900万股,发行市盈率设定为10.15倍,显示出公司良好的成长潜力与稳健的经营状况。投资者可通过申购代码920112参与认购,每股申购价格为15.78元。此次新股申购遵循相关规则,确保公平公正,广大投资者可依据自身投资策略积极参与。
08:47
8月19日,天孚通信在投资者互动平台上作出明确回应,就外界关注的2024年北美销售收入情况进行了详细说明。据公司披露,当年在北美市场的销售收入约为7649万元人民币,这一数字虽占总营收比例仅为2.35%,但公司强调当前实施的关税政策对公司业务的影响处于可控且有限的范围内,展现出公司对国际市场风险的有效管理能力。 在产品研发方面,天孚通信透露其CPO(客户前置...
08:47
近期,中金公司发布了一份深度行业研究报告,揭示了AI/AR眼镜市场的蓬勃发展态势。小米、Meta(前Facebook)以及Rokid等科技巨头纷纷加速布局,陆续推出或量产多款创新AI眼镜产品,标志着这一领域正迎来前所未有的发展机遇。随着技术的不断迭代升级,AI眼镜有望在多个维度实现突破性进展,为用户带来更加智能化的交互体验。 从技术层面来看,AI眼镜将通过搭...
08:47
8月19日,华泰证券发布深度报告指出,生成式AI技术正加速迈入以AI智能体为核心的新发展阶段。这一变革不仅将重塑宏观经济格局,更将引发深刻的社会结构变革。从宏观层面来看,AI智能体的广泛应用可能导致"无就业增长"现象的出现,同时催生"超级个体"这一新型社会角色;而在微观层面,软件价值与Token消耗将形成紧密绑定关系,进而与物理基础设施产能产生联动效应。报告...
08:47
华西证券最新研究指出,未来一周债市将迎来关键方向选择期,市场走势或将直接影响投资策略。若债市出现修复性反弹,投资者应果断增加久期配置以捕捉反弹机会;若市场持续低迷,则可采取少量多次买入策略,耐心博弈顶部区域的形成。从当前性价比角度分析,30年期国债与10年期国开债的配置价值显著优于10年期国债,两者利差已创一年新高,显示出较好的投资吸引力。经过近期的深度调整...
08:47
截至8月18日16时30分,离岸人民币对美元汇率报7.182,年内涨幅达2.11%,展现出人民币的强劲表现。在岸人民币对美元汇率收盘报7.1792,年内涨幅为1.64%,同样呈现稳步上升态势。值得注意的是,自8月4日起,人民币对美元汇率已持续在7.2以下波动,这一关键心理关口的有效突破,为人民币汇率带来了新的发展机遇。 民生银行首席经济学家温彬指出,人民币汇...
08:47
2025年8月19日,中国银河证券发布行业深度分析报告指出,稀土磁材行业正迎来新一轮景气周期。受矿端供给瓶颈与下游需求旺盛的双重驱动,预计2025年第三季度该行业将呈现量价齐升的强劲增长态势,企业盈利能力有望实现显著提升。 报告重点强调,全球铜矿供应链正面临持续扰动。智利作为世界最大铜生产国,其产量因矿工罢工事件出现明显下滑;同时非洲赞比亚等主要产区的铜产量...
08:47
中金公司最新发布的行业研报揭示了一个重要趋势:在新能源装机规模庞大或资源禀赋优越的区域,长时储能项目将迎来率先发展的黄金机遇期。这份深度报告指出,随着锂电池与多种长时储能技术的深度融合创新,新型储能解决方案正不断涌现,通过技术互补机制有效满足日益多元化的应用场景需求。值得注意的是,在政策红利持续释放与经济性显著提升的双重驱动下,长时储能产业正加速迈向大型化发...
07:46
2025年8月19日,记者深入市场调研发现,尽管新能源汽车保费较去年同期呈现明显下降趋势,但与同价位的燃油车相比,其保险费用依然居高不下。这一现象反映出新能源车险市场在价格竞争中仍面临较大压力。目前,新能源车险业务整体处于亏损状态,多数保险公司正承受着综合成本率难以跌破100%的严峻挑战。业内专家分析指出,随着新能源汽车市场逐渐成熟,保险公司定价能力的提升以...
07:46
2025年8月19日,全球科技巨头软银集团与英特尔正式宣布达成一项总额高达20亿美元的战略投资协议。根据协议条款,软银将以每股23美元的固定价格增持英特尔普通股,此举不仅将显著增强双方在半导体领域的协同效应,更标志着软银在全球科技产业版图上的重要布局升级。作为全球最大的半导体制造商之一,英特尔此次获得软银的巨额资金支持,将为其前沿技术研发注入强劲动力,特别是...