声明:本文来自于微信公众号 机器之心,作者:机器之心,授权站长之家转载发布。七月的浪潮逐渐退去,国产大模型领域却掀起了前所未有的开源热潮。若要用一个词概括这个月的热点,那无疑是「开源」。从昆仑万维到阿里、智谱,再到月之暗面、腾讯、阶跃星辰等众多玩家,开源大模型如雨后春笋般涌现。根据 Hugging Face 发布的中国 AI 社区七月开放成果报告,短短一个月内开源模型数量竟高达33款,展现出国产大模型蓬勃发展的态势。进入八月,这一趋势依旧如火如荼,重量级成果接连发布,热度持续升温。其中,昆仑万维更是连续发力,在七月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3以及多模态统一预训练模型 Skywork UniPic 后,于本周一正式启动了Skywork AI 技术发布周!五天时间里,每天都有新模型亮相,涵盖了视频生成、世界模型、生图一体化等多个多模态 AI 核心赛道,内容丰富,干货满满。8月14日,昆仑万维在技术发布周的第四天重磅发布了最新 Agent 成果,为其在智能体领域的探索与布局注入了新的活力。不久前,昆仑万维推出的全球首款 Office 智能体——天工超级智能体(Skywork Super Agents),凭借一站式生成能力在多个榜单中名列前茅,在文档、PPT、Excel、网页、播客等多任务执行中展现出卓越表现。此次,昆仑万维将天工超级智能体的核心引擎Skywork Deep Research Agent 升级至 V2 版本,不仅将深度调研体验提升至全新高度,还在多模态信息检索与生成、浏览器智能体任务中实现了性能、稳定性与智能化水平的全面跃升。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图

性能表现究竟有多出色?先来看一组权威数据。在权威搜索评测榜单 BrowseComp 中,Skywork Deep Research 在常规推理模式下正确率已达到27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外主流同类产品;而在自主研发的「并行思考」模式下,准确率更是跃升至38.7%,一举刷新行业 SOTA 记录,将 Grok-4 等所有竞品甩在身后。此外,在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中,Skywork Deep Research Agent 同样刷新 SOTA 成绩,超越所有竞品,在复杂任务中的硬核表现为其技术含金量提供了有力背书。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图1

赶快来体验天工超级智能体(Skywork Super Agents)!
全球官网:https://skywork.ai
国内官网:https://tiangong.cn

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图2

这位 Agent 新面孔在实操中能否达到预期?一手实测给出了令人惊喜的答案。Agent 深度研究的全感知时代始于多模态信息检索。去年12月,谷歌推出的 Gemini Deep Research 功能标志着全球首个 AI 研究助手的诞生。该功能可自动浏览网页、整合关键信息,并生成结构化的研究报告,让传统研究员几天的活儿仅需几分钟就能完成。这一功能迅速引发业界关注,OpenAI、xAI、Perplexity AI 等大模型厂商纷纷跟进,推出自家的 Deep Research。尽管这些功能在提取和整理文字信息时效率较高,但它们过于依赖纯文本检索,往往忽视图片、图表等视觉内容。而互联网上超过一半的关键信息以图文混排形式呈现,如财报中的曲线、科研论文里的实验图、社交媒体上的对比照等,若忽视这些视觉信息,研究报告的完整性和准确性将大打折扣。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图3

为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能识别并处理图片、图表,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更全面、准确的报告。例如,输入提示词「请配合丰富的图表,详细揭示2025年特斯拉在中国的销售情况,并分析销量变化的核心原因」,它首先会弹出表单让用户勾选任务需求,包括写作语言、篇幅、分析维度、图表类型偏好等,确保报告内容、深度和呈现方式符合用户需求。确认需求后,它会生成待办清单,调用工具搜索浏览网页、整合信息,尤其涉及图片部分会自动调用 MCP 工具进行图片分析和图表制作。在浏览180个网页、使用54个信源后,最终输出一份包含丰富图表的特斯拉中国销量分析报告,其中每个数据都标注来源,鼠标一点即可跳转,并根据文字内容自动插入对应图片和图注。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图4

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区,被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力,离不开四大核心技术突破:多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现。首先,利用 MM-Crawler 工具并行爬取结构化文本、二进制图片和元数据,通过「视觉噪声剪枝」技术剔除低信息密度图片,平均减少65%的冗余图片流量。其次,利用大规模「文字 – 图片 – 推理链」合成数据训练,实现长距离上下文感知与图片信息增益判断能力,将真正需要深入推理的图片数量压缩至一半,有效节省计算资源。第三,利用异步并行 Multi-Agent 架构,将不同任务智能调度给不同 Agent 并行执行,结合「多轨执行 + 流水整合」设计,提升多模态检索与理解效率。最后,在结果生成阶段,支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式,既可将图片信息融入文字解读,也可插入原图并融合多图、多模态信息后重绘综合性图表,输出信息完整、视觉友好的深度报告。目前,该功能已上线 skywork.ai 官网,人人可体验。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图5

突破传统浏览器 Agent 瓶颈,深入挖掘社交平台内容。Skywork Deep Research Agent V2的另一大功能模块是多模态深度浏览器智能体(Skywork Browser Agent)。传统浏览器智能体存在执行效率差、成功率低、平台壁垒导致任务中断、复杂边缘场景适应能力弱等问题。昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力,它不仅能高效分析社交媒体上的文本信息,还能精准筛选提取图片、视频及评论区的情感与观点,提供更全面的信息洞察。在网页浏览的全过程中,它始终有条不紊、规划周密,这一切都依托于自研模型的非凡推理能力。此外,它还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观易懂的可视化报告,并支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止工作流阻塞,大幅提升执行效率。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图6

举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映4天就斩获近2亿元票房。不过,对于这部打磨13年的影片,网友评价两极分化。我们让 Skywork Browser Agent 基于用户反馈生成电影《戏台》上映后网友评价的分析报告网页。工作流程与前文相似:勾选补充信息、生成待办清单,然后调用 MCP 工具执行任务。比如会弹出一个 Skywork 虚拟机显示浏览器 agent 的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」搜索,进入电影链接详情页收集信息和用户评论。搜完信息后,它开始搭建网页,开发 HTML 页面框架,划分内容区块;设计 CSS 样式,确保页面美观易读;使用 JavaScript 实现数据可视化和交互功能,同时下载并配置相关图片资源。若觉得生成网页不符合预期,还可与浏览器 Agent 进行多轮交互,根据当前网页进行二次编辑,Skywork Browser Agent 强大的指令跟随能力完美支持这一操作。最后生成的网页结构清晰、设计精美,内容涵盖电影基本信息、票房表现、评分对比等关键数据,网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表极大提升了信息的可读性和直观性。通过简单点击与交互,可深入了解影片的正负面评价及争议点。为测试稳定性,我们还进行了有趣的实验——浏览周杰伦的 Instagram,并打造一款粉丝应援网站。结果显示,制作的网页功能完整,视觉风格独特,效果出色。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图7

如此高效稳定的网页浏览能力,要归功于以下自研关键技术方案:集成强大的多模态推理模型与优化的 DOM 解析能力,提供卓越性能的核心支撑;主流平台动作适配与并行搜索 / 多动作规划机制,显著提升执行效率;内置智能筛选系统自动过滤低质或涉隐图片和文字内容;人机交互场景下支持智能提示与接管,并通过加密与前端保护机制保障用户隐私安全。Skywork Browser Agent 通过模拟人类浏览与交互方式,革新传统数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的 VLA(视觉 – 语言 – 动作)任务中展现巨大潜力。不过,这一功能尚处于内测和邀测阶段,预计下周向全部用户开放。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图8

全栈式演进,构建从数据、算法到多智能体系统的智能基座。从一系列实测来看,昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已今非昔比,堪称「独立思考、深度执行的智能工作伙伴」。特别是在信息检索、整理、总结以及复杂任务的执行中,展现出惊人的效率与准确性,背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。作为 AI 三大核心要素之一,数据层面的优化至关重要。昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。首先,制定数据质量标准,明确高质量搜索问题与答案的五大核心标准:多样性、正确性、唯一性、可验证性和挑战性,确保每个生成的查询覆盖广泛主题和难度层次,同时答案准确、唯一可靠且可验证。然后,通过多渠道收集互联网数据,构建初步种子池,利用自动化筛选系统评估挑选优质素材,为后续问题构造提供优质素材。接下来,处理复杂且具有挑战性的问题,利用深度信息收集技术从多个信息源提取线索,将具体信息抽象为高难度搜索查询,并采用迭代式增强策略将简单搜索转化为多步推理的复杂问题。过程中引入层次化推理链和信息混淆技术,进一步提升问题复杂度和模型推理能力。一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为大规模、端到端的强化学习提供了数据基础。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图9

想要提升 Agent 模型的学习效率和推理能力,需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题。为此,昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架,采用 GRPO 算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新数据,使模型始终处于有效「学习区」内。为了进一步提升验证精度和奖励的有效性,创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出则进一步分析问题构造阶段保存的线索进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图10

性能得到保障的同时,效率也必须提升。昆仑万维自研的并行推理框架发挥了关键作用。此前谷歌 DeepMind 在其最新 Gemini2.5Deep Think 推理模型中通过生成多个 Agent 来并行处理任务,并摘得 IMO2025 竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。一是并行思考模式,在每一步生成多个候选推理路径并筛选最优路径,避免推理链断裂、逻辑冲突导致的失效行为;同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率。二是在多步推理规划中引入生成式评估方案,对多个候选路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低计算负担和时间开销。三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。并行思考模式下,Skywork Deep Research 的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外,Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,但工具数量和复杂度的增加需要更高效的自动化管理工具。针对此,MCP 工具自动创建技术应运而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。在这一 MCP Manager Agent 的基础上,形成了一个将模型能力与工具能力结合的协同多智能体框架,不仅能高效组织多个 Agent 协作,还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。整体架构中展示了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。这一套系统性的升级,无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性,构筑起 Agent 模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。

写在最后。2025年已过半,我们明显感受到:伴随 Scaling Laws 逐渐放缓的影响,国内外 AI 玩家追求单一最强通用大模型的热度有所降温,就连 OpenAI 至今最强的旗舰模型 GPT-5也被吐槽缺乏突破性体验。相反,成果开源与应用落地成为业界普遍关注的焦点。可以说,AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将 AI 能力转化为可规模化部署的商业生产力,谁就更能在新一轮 AI 竞赛中抢占战略高地。昆仑万维为期一周的模型发布,既是其 AI 技术成果的集中亮相,也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是 Agent 驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局再次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球 AI 竞争格局中稳固并扩大自身领先优势。其中,作为当前加速大模型落地的核心途径,Agent 的重要性已在业界达成共识。我们可以期待,此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,有望为整个 AI 行业带来更高效、更智能的解决方案。

最新快讯

2025年11月18日

12:05
名创优品创始人叶国富近期在播客节目中透露,公司正加速签约原创潮玩艺术家,并计划投入1亿元用于IP开发,这一举动引发了潮玩行业对IP争夺的广泛关注。事实上,名创优品已独家签约右右酱、猪坚强、气宝等17个艺术家IP,其高调动作被业界解读为加速TOPTOY上市的策略之一。近年来,潮玩行业对IP的争夺已成为近两三年的核心焦点。今年labubu的火爆现象,不仅吸引了更...
12:05
Meta首席AI科学家杨立昆近日正式宣布,将在未来数月内离开这家科技巨头,转而创办一家专注于"世界模型"研究的新公司。据多方消息人士透露,杨立昆目前正在积极与多家潜在投资者接洽,计划将多年来潜心研究的"目标驱动AI"架构商业化落地。这一决定被视为对Meta近期重金押注大语言模型(LLM)路线策略的公开质疑。 杨立昆曾多次在公开场合表达对当前LLM发展路线的担...
11:57
11月17日,小鹏汽车、零跑汽车与吉利汽车三家公司相继发布2023年第三季度财报,引发市场广泛关注。其中,小鹏汽车实现亏损大幅收窄,零跑汽车持续保持盈利态势,而吉利汽车净利润则呈现显著增长。在随后的业绩发布会上,吉利汽车行政总裁桂生悦指出,明年汽车行业将迎来大浪淘沙的关键时期,盈利能力将成为企业生存的核心要素。 在应对市场变化方面,三家企业展现出高度的战略前...
11:57
2024年11月16日,国际知名学术出版集团施普林格·自然正式发布《自然》增刊"2024自然指数-科研城市"报告,该报告通过科学严谨的评估体系,全面衡量全球主要城市在高质量科学期刊中的科研产出表现。报告显示,中国科研实力持续领跑,六座城市强势跻身全球科研城市十强,较2023年的五席实现历史性突破,首次以过半席位占据榜单半壁江山。具体来看,北京、上海、南京、广...
11:57
2025年11月18日,全球零售巨头沃尔玛正式宣布其核心自有品牌“沃集鲜”完成全面升级,以焕然一新的姿态重新亮相市场。此次升级不仅带来了全新的品牌理念“简单为鲜,沃集鲜”,更同步推出了近千款创新产品或对现有商品进行深度优化升级,涵盖生鲜、食品、饮料等多个消费者日常购物的核心品类。这一系列举措旨在全面提升消费者的购物体验,让每一次选择都更加轻松便捷。 通过...
11:57
闲鱼循环商店华中首店正式进驻武汉江岸区后湖大道新荣天街,这一重要举措标志着该平台在华中地区的线下业务布局正式拉开帷幕。继华东、华南地区门店成功落地后,此次武汉新店的开业进一步扩大了闲鱼线下循环经济的版图范围,彰显了其加速拓展全国市场的发展战略。 今年以来,闲鱼在实体店网络建设方面展现出强劲的推进力度。继8月深圳Apark店盛大开业后,苏州、无锡两地城市首店也...
11:57
全球DRAM市场正经历一场前所未有的价格风暴,供需失衡与AI技术爆发式增长的双重驱动下,内存产品价格持续飙升,韩国DIY市场更是成为这场热潮的焦点区域。根据韩国知名电商价格追踪平台Danawa最新监测数据,内存产品价格涨幅惊人,其中三星DDR5-5600 16GB内存条在短短三个月内价格暴涨超过三倍,从今年8月约338元人民币的低位一路攀升至目前超过1050...
11:57
2025年11月18日,重庆市重磅发布48个科技攻关“揭榜挂帅”项目,标志着该市在科技创新领域迈出坚实步伐。这些项目涵盖数智科技、生命健康、新材料和绿色低碳四大前沿领域,紧密围绕“33618”现代制造业集群体系和“416”科技创新布局,全面覆盖12个重点产业领域,展现出重庆在科技创新领域的战略布局和决心。 此次揭榜挂帅项目总金额超过3亿元,单项最高资助额度高...
11:57
2025年11月18日,华为终端正式揭晓了其最新旗舰折叠屏手机Mate X7的核心技术突破——"超可靠折叠玄武架构"。这一创新架构在防水防尘、抗跌落、抗压及抗冲击性能上实现了全面跃升,为高端移动设备带来了前所未有的耐用性与可靠性保障。作为华为终端当日重点发布的技术成果,该架构将率先应用于即将震撼上市的Mate X7系列新品中,预示着折叠屏手机在坚固耐用方面迈...
11:57
2025年11月18日,上海浦东新区在张江药谷国际创新大会·医疗器械论坛上正式宣布,将集中资源重点布局微纳机器人、类脑智能和新型生物材料三大前沿科技领域,标志着浦东新区在高端医疗器械领域的战略布局再上新台阶。作为上海医疗器械产业的核心承载区,浦东新区已累计获批三类医疗器械注册证超过1200张,这一数字占全市总量的40%,充分彰显了浦东在医疗器械创新领域的领先...
11:57
G-STAR 2025游戏开发者大会成为业界焦点,知名制作人横尾太郎与神谷英树同台对话,首次就外界对其“长期无作品”的质疑作出正面回应。横尾太郎以幽默的自嘲开场,戏称自己为“游戏行业寄生虫”,随后坦诚透露自己虽参与多个项目开发,却因中途取消而未能面世。他坦言并非无所事事,只是成果未能公开发布,“已拿到报酬,对项目中止没有意见”,展现出对行业现实的深刻理解。 ...
11:57
零跑A10即将在11月21日开幕的2025广州车展上完成其全球首次亮相,为观众带来全新惊喜。此次亮相不仅车型本身备受期待,官方更同步发布了两款极具特色的全新配色——海苔绿与橡果棕,为未来车主提供了更多个性化选择。值得注意的是,关于新车的具体配置细节与售价信息,官方尚未正式公布,这无疑为此次车展增添了一层神秘感,也吊足了车迷的胃口。 就在今年10月,零跑汽车C...