阿里云通义实验室近日正式宣布开源其自主研发的突破性AI智能体项目WebAgent,其中旗舰组件WebShaper和WebSailor在网络智能体领域引发全球瞩目。这款革命性AI工具凭借端到端的自主信息检索与多步推理能力,实现了接近甚至超越人类专家的网络交互水平,为信息处理领域带来全新突破。

WebAgent:模拟人类搜索行为的智能体

WebAgent是阿里巴巴通义实验室精心打造的开源AI智能体,其核心使命在于模拟人类在网络环境中的感知、决策和行动循环。通过自主搜索和多步推理技术,WebAgent能够高效处理复杂、模糊的网络任务,为用户提供前所未有的智能搜索体验。该智能体包含多个关键组件,其中WebSailor和WebShaper的技术创新尤为引人注目。根据官方介绍,WebAgent能够主动检索学术数据库、新闻网站和专业论坛,精准筛选关键信息并生成结构化报告,广泛应用于学术研究、商业分析和日常查询等场景。

在权威评测集BrowseComp上,WebSailor-72B模型表现惊艳,超越了DeepSeek R1和Grok-3等知名闭源模型,仅次于OpenAI的DeepResearch,荣登开源网络智能体榜首。WebAgent还在GAIA和WebWalkerQA基准测试中分别取得60.19分和52.2分的卓越成绩,充分展现了其在复杂任务中的强大能力。

WebShaper:形式化驱动的数据合成新范式

WebShaper作为WebAgent生态的核心创新,提出了一种基于”形式化驱动”的数据合成方法,有效解决了AI在高不确定性任务中的推理难题。通过集合论构建信息搜索任务的数学化表示框架,WebShaper利用”知识投影”概念,将复杂搜索过程抽象为实体集合的操作。例如在查询”出生于90年代的球员在2004-05赛季为东德足球队效力”时,WebShaper能系统化地生成训练数据,确保AI在多步推理中保持高度准确性。

WebShaper数据集覆盖体育、学术、政治、娱乐等多个领域,其中体育类问题占21%,学术类占17%,确保了知识的广泛适应性。其逐层扩展策略有效避免了推理捷径和信息冗余,使AI必须通过完整推理路径得出答案。实验表明,WebShaper训练的模型在相同数据量下,性能显著优于WebWalkerQA和E2HQA等传统数据集。

WebSailor:复杂任务中的”超级网络侦探”

作为WebAgent的”大脑”,WebSailor是一个大规模语言模型,负责理解用户意图、制定浏览策略并决定操作步骤。其最新版本WebSailor-72B通过阿里云FunctionAI实现一键部署,用户仅需10分钟即可完成配置,极大降低了使用门槛。WebSailor在高不确定性任务中表现出色,尤其擅长处理模糊查询或需要跨平台信息整合的复杂场景。

WebSailor的训练采用了创新的SailorFog-QA数据集,通过子图采样和信息模糊化技术模拟真实网络环境中的复杂知识图谱。这种方法赋予了模型处理”超人类”任务的能力,在BrowseComp测试中,WebSailor-32B和72B版本不仅领先所有开源模型,还超越了部分闭源系统。

阿里开源WebAgent项目WebShaper GAIA评测超越Claude4-Sonnet插图

WebDancer与WebWalker:构建完整生态

WebAgent的成功离不开两大关键模块WebDancer和WebWalker的支持。WebDancer是一个端到端智能体训练框架,通过四阶段训练(数据构建、轨迹采样、监督微调、强化学习)全面提升AI的多步搜索能力。其最新版本WebDancer-QwQ-32B在GAIA Pass@3评测中取得64.1%的优异成绩。

WebWalker则是一个基准测试工具,用于评估语言模型在复杂网页遍历中的表现,为开发者优化算法提供了标准化的评估体系。WebAgent的混合推理模式通过”思维预算机制”动态分配计算资源,实现快速响应简单查询与深度推理复杂任务的完美平衡。

在实际应用中,WebAgent能在10分钟内完成特斯拉与小鹏汽车配置表的爬取与分析,或从PubMed等数据库提取临床试验数据并生成溯源报告,效率远超人工操作。

开源意义:重塑信息处理与社区创新

WebAgent的开源不仅大幅降低了企业和开发者的使用成本,更为全球AI社区提供了工业级训练框架和评估标准。其GitHub仓库(https://github.com/Alibaba-NLP/WebAgent)已获超4000次星标,位列GitHub trending第一,Huggingface月度第三。WebSailor的训练策略——高难度任务合成、小规模冷启动、高效强化学习优化——为开源社区攻克复杂推理任务提供了宝贵思路。

从学术研究到商业决策,WebAgent的应用潜力无限。研究人员可利用其快速检索ACL2025论文主题,商业用户可分析2025年AI芯片市场趋势,普通用户则能获取旅游规划或健康咨询等个性化建议。WebAgent的开源标志着AI智能体从技术演示迈向生产力场景,未来有望推动跨模态信息整合和开放领域推理的进一步突破。

GitHub:https://github.com/Alibaba-NLP/WebAgent
huggingface:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
model scope:https://modelscope.cn/datasets/iic/WebShaper

最新快讯

2026年03月04日

08:39
微新创想:3月4日前,中科院光电所联合多家单位在云南丽江高美古观测站开展星地激光通信试验。此次试验依托自主研制的1.8米地面站,团队成功与地球同步轨道卫星建立稳定激光链路。在40740.96公里的最远距离下,实现了上下行对称1Gbps的双向高速通信。 微新创想:试验过程中,建链仅需4秒,链路连续稳定运行超过3小时。这一突破性表现不仅验证了激光通信在超远距离下...
08:39
微新创想:2026年3月3日,特斯拉柏林超级工厂生产负责人安德烈·蒂里希在领英上发布声明,否认德国《商报》关于该工厂2025年仅生产14.9万辆Model Y以及仅0.74%利润率的报道。蒂里希明确表示,2025年的实际产量已超过20万辆,并且各季度之间呈现出持续增长的趋势。此外,他提到自2022年工厂正式投产以来,累计生产量已突破70万辆。 蒂里希还强调,...
08:39
微新创想:2026年2月27日 瑞典媒体SVD披露 Meta公司正将用户通过Ray-Ban智能眼镜录制的含高度隐私内容的视频传输至肯尼亚内罗毕外包公司Sama进行人工标注 数千名签署保密协议的数据标注员被迫观看西方家庭日常私密画面 这一事件引发了广泛的社会关注和讨论 问题源于AI功能启用后 视频须经Meta服务器处理并转交外包方 而自动打码在复杂光照下频繁失...
08:39
微新创想:近日,有网友在社交平台上发布了一段视频,对山姆超市一款售价37.9元的冰块产品表示质疑,引发广泛热议。这款冰块名为“农夫山泉纯透方冰”,净含量为1.38公斤,价格远高于普通冰块,迅速成为网络讨论的焦点。视频发布后,评论区热闹非凡,部分网友认为价格过高,难以接受;也有不少人表示理解,认为这款冰块有其特殊之处。 这款冰块并非普通冰块,而是专为调酒设计的...
08:08
微新创想:2026年3月4日,美国得克萨斯大学奥斯汀分校的研究团队在超薄二维磁性材料中,随温度降低依次观测到两种罕见的磁性状态。这一发现不仅填补了理论研究的空白,还为理解低维磁性系统提供了新的视角。 研究团队在原子级厚度的材料中进行了深入实验,成功揭示了在维度受限条件下磁序变化的新机制。这些磁性状态的出现与温度变化密切相关,表现出独特的物理特性,为后续的理论...
08:08
微新创想:2025年第四季度全球电视出货量达到6150万台,整体市场保持稳定态势。尽管整体表现平稳,但中国市场因受到补贴退坡以及前期消费透支的影响,电视出货量同比下降了25.3%。面对国内市场增速放缓的挑战,TCL与海信积极调整战略,将重点转向海外市场。在北美市场,这两家中国品牌实现了显著增长,合并市场份额提升至30.7%,比去年同期增长了2.1个百分点。 ...
08:08
微新创想:2026年3月3日,Anthropic宣布在其编程工具Claude Code中逐步推送全新语音模式。这一功能被内置于底层架构,使得拥有内测权限的用户能够在欢迎界面直接启用。用户只需长按空格键即可通过语音输入开发需求,松开按键后系统便会自动发送执行指令。这种方式大幅降低了传统文本输入的复杂性,提升了开发效率。 该语音功能的推出,标志着Claude C...
08:08
微新创想:3月4日 加拿大滑铁卢大学领衔的国际科研团队发布了一项新研究 提出了一种可增强大语言模型‘人类智慧’的训练方法 该方法聚焦于支持明智推理的新型模型架构 并配套构建了衡量AI智慧水平的评估基准 研究在《认知科学趋势》最新期刊发表 此举旨在突破当前AI在常识推理 价值权衡与情境适应等方面的局限 推动AI向更类人的认知能力演进
08:08
微新创想:3月4日,美国杰克逊实验室与麻省理工学院联合研发出新型微针贴片,可在皮肤表面无痛、无创采集人体关键免疫细胞。这项突破性技术无需抽血或活检,通过微米级可溶性针阵列穿透角质层,特异性捕获树突状细胞等免疫细胞。研究团队在临床前模型中验证了其有效性,为动态免疫监测和个性化疫苗响应评估提供了一种全新的工具。该成果发表于《自然·生物医学工程》,标志着免疫检测技...
08:08
微新创想:2026年3月4日8时 三峡南线船闸正式启动年度计划性停航检修 此次检修是自2003年三峡船闸通航以来的第9次计划性停航。检修工作将持续约35天 由长江三峡通航管理局统一组织与实施 检修工作主要集中在湖北省宜昌市三峡水利枢纽南线船闸区域 包括闸门 启闭机 电气系统以及助航设施等多个关键部分的全面维护和技术升级 通过此次检修 三峡南线船闸将全面提升通...
07:37
微新创想:3月11日,苹果将在美国旧金山举办的游戏开发者大会(GDC)上举行三场专题演讲,全面推动其游戏生态建设。首场演讲将聚焦苹果软硬件协同开发,深入探讨如何通过系统级优化提升游戏性能与用户体验。这一环节不仅展示了苹果在硬件与软件整合方面的技术实力,也为开发者提供了宝贵的参考和灵感。 次场演讲由CD Projekt Red带来,将详细解析《赛博朋克2077...
07:37
微新创想:河北维达康生物科技股份有限公司在2026年3月4日前于河北证监局完成IPO辅导备案 辅导机构为中信建投证券 公司成立于2021年 注册资本达到1.4亿元 注册地设在河北省保定市满城区于家庄镇 公司专注于膳食补充剂 天然色素 香料以及医药中间体等合成生物学产业化领域 作为国家认定的“专精特新”小巨人企业 公司在科技创新方面表现突出 牵头承担了河北省“...