阿里WebShaper发布:GAIA测试碾压Claude3.5 Sonnet和GPT-4o

阿里通义实验室(Tongyi Lab)近日震撼发布WebAgent系列的第四款开源力作——WebShaper,这一革命性框架凭借其独创的”形式化驱动”信息检索模式,迅速引爆行业关注。据AIbase从社交平台及权威渠道获悉,WebShaper在GAIA基准测试中斩获60.19的惊人高分,不仅力压Claude3.5Sonnet和GPT-4o等业界顶尖模型,更通过创新的数据生成技术,显著强化了AI在复杂任务中的信息检索与推理能力。

从信息驱动到形式化驱动:范式革新的历史性突破
传统的信息检索(IS)方法多以”信息驱动”为核心理念,但往往陷入信息结构与推理逻辑错位、知识覆盖面狭窄的困境,导致AI在处理开放性复杂任务时表现不尽如人意。WebShaper创新性地引入”形式化驱动”全新范式,通过系统化的任务形式化方法,彻底重塑了数据生成与模型训练流程。该框架的核心突破在于:采用逻辑严密的结构化生成方式,确保训练数据的知识体系与推理框架在语义层面高度统一。AIbase独家了解到,WebShaper运用”代理式扩展器”(Agentic Expander)进行迭代式问题生成与验证,既保证了数据生成过程的可控性,又实现了条理分明的知识构建。这种创新方法不仅大幅提升了数据质量,更显著增强了模型在复杂信息检索任务中的表现力。

阿里WebShaper发布:GAIA测试碾压Claude3.5 Sonnet和GPT-4o插图1

GAIA评测创佳绩:60.19分领跑开源模型赛道
WebShaper的性能表现堪称惊艳。在被誉为AI通用能力试金石的GAIA基准测试中,基于WebShaper数据集训练的开源模型以60.19的优异成绩领跑全场,超越了包括Claude3.5Sonnet和GPT-4o在内的众多业界领先模型,树立了开源模型的新标杆。GAIA基准以其严苛的多模态处理、网页浏览及复杂推理等综合测试任务,对AI的综合实力提出了前所未有的挑战。此外,WebShaper在WebWalkerQA基准测试中也取得了52.50的亮眼成绩,充分展现了其在网页遍历与信息检索领域的卓越能力。AIbase认为,这一突破性成果不仅彰显了WebShaper的技术领先性,更为开源AI社区注入了强劲动力。

WebShaper数据集:逻辑驱动的训练新范式
WebShaper的又一核心创新体现在其数据集生成框架上。不同于传统随机收集的数据方式,WebShaper采用形式化驱动方法,系统化地构建信息检索任务实例。AIbase深度调研发现,该框架能够根据特定任务需求生成结构化的训练数据,确保知识与推理逻辑的语义高度一致,从而让AI在处理开放性问题时更加精准高效。例如,WebShaper特别推出了SailorFog-QA数据集,这是一个专为高不确定性复杂场景设计的问答基准,通过图采样和信息模糊化技术生成,专门测试模型在极端条件下的表现。社交媒体上,开发者对这一数据集的逻辑严谨性和可控性给予高度评价,认为其为AI模型训练提供了更可靠的基础设施。

WebAgent生态的持续进化:开源与社区驱动的未来
WebShaper作为阿里通义实验室WebAgent系列的最新成员,该系列此前已推出WebWalker、WebDancer和WebSailor等创新工具。这些工具共同致力于打造自主化信息检索与处理能力,广泛应用于学术研究、市场分析及日常查询等多元场景。AIbase观察到,WebAgent项目在GitHub上已获得超过4000次星标,充分体现了开源社区的广泛认可与支持。WebShaper的开源特性进一步加速了社区创新进程,开发者可自由获取代码与部分数据集,通过调整超参数或结合DUPO算法的强化学习,轻松优化模型性能。此外,WebAgent还提供WebWalkerQA、GAIA等任务的交互式演示,让用户直观感受模型的强大功能。AIbase预测,随着社区的持续贡献,WebShaper及其相关工具将在更多场景中发挥重要作用。

阿里WebShaper发布:GAIA测试碾压Claude3.5 Sonnet和GPT-4o插图2

未来展望:推动AI迈向通用智能新纪元
WebShaper的发布标志着信息检索领域的一次重大飞跃,其形式化驱动范式为AI处理复杂任务开辟了全新路径。AIbase获悉,阿里通义实验室正计划进一步拓展WebAgent系列功能,包括优化多模态处理能力、支持更广泛的语言与场景,甚至探索远程访问高性能模型的部署方案。社交媒体上,开发者对WebShaper的评价普遍积极,盛赞其”逻辑清晰、性能卓越”,尤其在处理需要多步推理和跨模态理解的任务时表现突出。AIbase认为,WebShaper不仅显著提升了开源模型的竞争力,更为通用人工智能(AGI)的发展奠定了坚实基础。

结语
阿里通义实验室的WebShaper凭借其形式化驱动的创新范式和在GAIA基准中的卓越表现,重新定义了信息检索任务的边界。AIbase将持续关注WebAgent系列的最新进展,为您带来更多前沿AI技术资讯。让我们共同见证开源AI如何在逻辑驱动与社区协作的双重推动下,迈向通用智能的新纪元!项目地址:https://github.com/Alibaba-NLP/WebAgent

最新快讯

2025年10月02日

14:24
韩国科技媒体The Bell最新披露的独家消息显示,SK海力士旗下固态存储领军企业Solidigm正全力冲刺下一代NAND闪存技术的研发突破,目标是在明年正式实现商业化落地。作为全球唯一坚持采用浮动栅极架构的NAND闪存巨头,Solidigm的新一代产品将实现革命性突破,成功将堆叠层数提升至约250层,同时继续沿用备受市场认可的QLC单元设计路线。 业内曾长...
13:54
罗技近期在全球范围内正式推出了MX Master 3s Lite无线鼠标,这款新品作为MX Master 3s的精简版本,在保留核心优势的同时进行了针对性优化。MX Master 3s Lite最显著的变化是取消了传统的Bolt 2.4GHz接收器,转而采用蓝牙连接方式,这一设计极大地提升了多设备切换的便捷性,用户可以轻松在不同设备间无缝切换使用。 尽管...
13:54
2025年10月2日,人工智能领域的领军企业OpenAI成功完成了一项具有里程碑意义的二级股票交易,其估值飙升至令人瞩目的5000亿美元。这一重大成就不仅刷新了全球初创企业的估值记录,更标志着OpenAI在全球科技格局中的强势崛起。此次交易为现任及前任员工提供了宝贵的变现机会,允许他们出售约66亿美元的股份,而购入方则包括软银、思睿资本、Dragoneer、...
13:54
10月1日,上海迎来旅游热潮,全市共接待游客358.47万人次,同比增长18.50%,展现出强劲的旅游复苏势头。据上海旅游大数据监测显示,国庆假期首日游客接待量实现显著攀升,市民与游客纷纷选择出行,游览城市地标、文博场馆及商圈街区,共同感受上海的魅力。文旅消费持续升温,全市各大景区和公共场所秩序井然,部分热门景点为保障安全,采取了限流措施。此次增长主要得益于...
13:54
特斯拉近期一项备受争议的举措引发了广泛关注。据《连线》杂志独家报道,该品牌汽车在系统监测到驾驶员出现疲劳状态或车道偏离行为时,会通过中控屏幕主动弹出提示,建议开启FSD(完全自动驾驶辅助功能)。这些提示信息直白而具有引导性,例如"检测到疲劳状态,建议启用FSD助您保持专注"等措辞,迅速成为行业焦点。 尽管特斯拉官方强调FSD系统仍需驾驶员保持全程监控,但多位...
13:23
円星科技(M31)作为全球硅智财(IP)领域的佼佼者,近日传来振奋人心的消息其低功耗IP解决方案在台积电N12e制程上取得突破性进展后,进一步将技术版图拓展至N6e先进制程,成功推出全新存储器编译器系列。该系列IP解决方案专为超低漏电(ULL)、极低漏电(ELL)和低电压操作(Low-VDD)设计,能够完美契合高性能与低功耗并重的应用场景,为物联网、移动设备...
13:23
海口国际机场福朋喜来登酒店盛大启幕,正式宣告这一国际知名酒店品牌首次登陆海口市场。酒店坐落于美兰区海瑜大道,地理位置优越,距离海口美兰国际机场及美兰高铁站仅约5公里,无论是商务出行还是休闲度假,都能实现便捷通达。 作为福朋喜来登品牌在海南的首个落脚点,该酒店精心打造了149间客房与套房,每一间都配备了高品质床品系统,确保宾客享受极致舒适的睡眠体验。55英...
13:23
乐山福朋喜来登酒店盛大启幕,标志着国际知名酒店品牌福朋喜来登正式进驻乐山,为这座千年古城注入全新的住宿体验。酒店坐落于风景秀丽的五通桥区竹根镇岷江道北段,与壮丽的岷江、历史悠久的王爷庙以及静谧的菩提山公园仅咫尺之遥,周边环绕着充满活力的晶硅光伏高新产业区,地理位置得天独厚。 酒店交通极为便利,距离乐山市中心约25公里,乘坐高铁仅需29公里,前往乐山机场只需1...
13:23
今日中午,北京时间传来重磅消息,全球人工智能领域的领军企业OpenAI成功完成了一笔高达约66亿美元的二级市场股份转让交易。这一交易不仅为公司带来了巨额资金,更使其估值实现了飞跃式增长,一跃升至令人瞩目的5000亿美元,从而超越了科技巨头SpaceX,正式加冕为全球估值最高的初创企业。值得注意的是,OpenAI的估值在此前已从3000亿美元的基础上实现了翻倍...
12:50
烟台芝罘福朋喜来登酒店近日盛大开业,为这座海滨城市的旅游市场注入了强劲的新动能。这座现代化酒店坐落于芝罘区海港路黄金地段,紧邻烟台站和烟台港客运站,无论是火车还是轮渡出行都极为便利。值得一提的是,前往烟台蓬莱国际机场仅需45分钟车程,立体交通网络为商务和休闲旅客提供了无与伦比的出行体验。 酒店拥有107间精心设计的现代风格客房,每一间都配备了65寸液晶电视、...
12:50
上海佘山世茂艾美酒店近日以全新面貌焕新登场,正式宣告该奢华品牌再度进驻备受瞩目的佘山旅游度假区。作为佘山国家旅游度假区的核心地标,酒店毗邻月湖雕塑公园与佘山森林公园两大自然人文景观,距离上海南站仅25公里,虹桥国际机场24公里,形成便捷的都会连接枢纽。 此次升级后的酒店共设有330间精致客房与套房,每间客房均配备独立阳台,最小面积达55平方米,为宾客提供私享...
12:50
2025年10月2日,中金公司投资银行部负责人孙雷在行业峰会上发表重要观点,强调并购重组已成为推动中国经济结构调整与高质量发展的核心引擎。他指出,这一趋势不仅优化了资源配置效率,更在深层次上促进了产业升级与经济转型。孙雷基于详尽的市场数据分析,预测2025年中国并购市场全年交易规模将突破历史峰值,有望接近过去十年的最高水平,展现出强劲的增长动能与广阔的发展前...