昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳

2025-08-14 22:50:26 互联网 57 次阅读

声明：本文来自于微信公众号机器之心，作者：机器之心，授权站长之家转载发布。七月的浪潮逐渐退去，国产大模型领域却掀起了前所未有的开源热潮。若要用一个词概括这个月的热点，那无疑是「开源」。从昆仑万维到阿里、智谱，再到月之暗面、腾讯、阶跃星辰等众多玩家，开源大模型如雨后春笋般涌现。根据 Hugging Face 发布的中国 AI 社区七月开放成果报告，短短一个月内开源模型数量竟高达33款，展现出国产大模型蓬勃发展的态势。进入八月，这一趋势依旧如火如荼，重量级成果接连发布，热度持续升温。其中，昆仑万维更是连续发力，在七月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3以及多模态统一预训练模型 Skywork UniPic 后，于本周一正式启动了Skywork AI 技术发布周！五天时间里，每天都有新模型亮相，涵盖了视频生成、世界模型、生图一体化等多个多模态 AI 核心赛道，内容丰富，干货满满。8月14日，昆仑万维在技术发布周的第四天重磅发布了最新 Agent 成果，为其在智能体领域的探索与布局注入了新的活力。不久前，昆仑万维推出的全球首款 Office 智能体——天工超级智能体（Skywork Super Agents），凭借一站式生成能力在多个榜单中名列前茅，在文档、PPT、Excel、网页、播客等多任务执行中展现出卓越表现。此次，昆仑万维将天工超级智能体的核心引擎Skywork Deep Research Agent 升级至 V2 版本，不仅将深度调研体验提升至全新高度，还在多模态信息检索与生成、浏览器智能体任务中实现了性能、稳定性与智能化水平的全面跃升。

性能表现究竟有多出色？先来看一组权威数据。在权威搜索评测榜单 BrowseComp 中，Skywork Deep Research 在常规推理模式下正确率已达到27.8%，超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外主流同类产品；而在自主研发的「并行思考」模式下，准确率更是跃升至38.7%，一举刷新行业 SOTA 记录，将 Grok-4 等所有竞品甩在身后。此外，在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中，Skywork Deep Research Agent 同样刷新 SOTA 成绩，超越所有竞品，在复杂任务中的硬核表现为其技术含金量提供了有力背书。

赶快来体验天工超级智能体（Skywork Super Agents）！
全球官网：https://skywork.ai
国内官网：https://tiangong.cn

这位 Agent 新面孔在实操中能否达到预期？一手实测给出了令人惊喜的答案。Agent 深度研究的全感知时代始于多模态信息检索。去年12月，谷歌推出的 Gemini Deep Research 功能标志着全球首个 AI 研究助手的诞生。该功能可自动浏览网页、整合关键信息，并生成结构化的研究报告，让传统研究员几天的活儿仅需几分钟就能完成。这一功能迅速引发业界关注，OpenAI、xAI、Perplexity AI 等大模型厂商纷纷跟进，推出自家的 Deep Research。尽管这些功能在提取和整理文字信息时效率较高，但它们过于依赖纯文本检索，往往忽视图片、图表等视觉内容。而互联网上超过一半的关键信息以图文混排形式呈现，如财报中的曲线、科研论文里的实验图、社交媒体上的对比照等，若忽视这些视觉信息，研究报告的完整性和准确性将大打折扣。

为解决这一痛点，昆仑万维推出了业界首个「多模态深度调研」Agent。通过创新性地整合多模态检索理解和跨模态生成能力，它不仅能识别并处理图片、图表，还能将图片中的关键信息融入报告中，并生成图注和综合性图表，为研究人员提供更全面、准确的报告。例如，输入提示词「请配合丰富的图表，详细揭示2025年特斯拉在中国的销售情况，并分析销量变化的核心原因」，它首先会弹出表单让用户勾选任务需求，包括写作语言、篇幅、分析维度、图表类型偏好等，确保报告内容、深度和呈现方式符合用户需求。确认需求后，它会生成待办清单，调用工具搜索浏览网页、整合信息，尤其涉及图片部分会自动调用 MCP 工具进行图片分析和图表制作。在浏览180个网页、使用54个信源后，最终输出一份包含丰富图表的特斯拉中国销量分析报告，其中每个数据都标注来源，鼠标一点即可跳转，并根据文字内容自动插入对应图片和图注。

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区，被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力，离不开四大核心技术突破：多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现。首先，利用 MM-Crawler 工具并行爬取结构化文本、二进制图片和元数据，通过「视觉噪声剪枝」技术剔除低信息密度图片，平均减少65%的冗余图片流量。其次，利用大规模「文字 – 图片 – 推理链」合成数据训练，实现长距离上下文感知与图片信息增益判断能力，将真正需要深入推理的图片数量压缩至一半，有效节省计算资源。第三，利用异步并行 Multi-Agent 架构，将不同任务智能调度给不同 Agent 并行执行，结合「多轨执行 + 流水整合」设计，提升多模态检索与理解效率。最后，在结果生成阶段，支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式，既可将图片信息融入文字解读，也可插入原图并融合多图、多模态信息后重绘综合性图表，输出信息完整、视觉友好的深度报告。目前，该功能已上线 skywork.ai 官网，人人可体验。

突破传统浏览器 Agent 瓶颈，深入挖掘社交平台内容。Skywork Deep Research Agent V2的另一大功能模块是多模态深度浏览器智能体（Skywork Browser Agent）。传统浏览器智能体存在执行效率差、成功率低、平台壁垒导致任务中断、复杂边缘场景适应能力弱等问题。昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力，它不仅能高效分析社交媒体上的文本信息，还能精准筛选提取图片、视频及评论区的情感与观点，提供更全面的信息洞察。在网页浏览的全过程中，它始终有条不紊、规划周密，这一切都依托于自研模型的非凡推理能力。此外，它还能自动进行线上社区内容的高效数据分析，将枯燥的调研工作转化为直观易懂的可视化报告，并支持一键式网站部署，将抓取的关键图片与分析内容生成独立网站，方便展示和分享。针对社交平台登录墙的难点，配备了智能化接管机制；为每个执行步骤设置了自适应超时控制，有效防止工作流阻塞，大幅提升执行效率。

举个例子。最近，喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕，公映4天就斩获近2亿元票房。不过，对于这部打磨13年的影片，网友评价两极分化。我们让 Skywork Browser Agent 基于用户反馈生成电影《戏台》上映后网友评价的分析报告网页。工作流程与前文相似：勾选补充信息、生成待办清单，然后调用 MCP 工具执行任务。比如会弹出一个 Skywork 虚拟机显示浏览器 agent 的操作轨迹：它可以自动打开豆瓣电影首页，输入「戏台」搜索，进入电影链接详情页收集信息和用户评论。搜完信息后，它开始搭建网页，开发 HTML 页面框架，划分内容区块；设计 CSS 样式，确保页面美观易读；使用 JavaScript 实现数据可视化和交互功能，同时下载并配置相关图片资源。若觉得生成网页不符合预期，还可与浏览器 Agent 进行多轮交互，根据当前网页进行二次编辑，Skywork Browser Agent 强大的指令跟随能力完美支持这一操作。最后生成的网页结构清晰、设计精美，内容涵盖电影基本信息、票房表现、评分对比等关键数据，网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表极大提升了信息的可读性和直观性。通过简单点击与交互，可深入了解影片的正负面评价及争议点。为测试稳定性，我们还进行了有趣的实验——浏览周杰伦的 Instagram，并打造一款粉丝应援网站。结果显示，制作的网页功能完整，视觉风格独特，效果出色。

如此高效稳定的网页浏览能力，要归功于以下自研关键技术方案：集成强大的多模态推理模型与优化的 DOM 解析能力，提供卓越性能的核心支撑；主流平台动作适配与并行搜索 / 多动作规划机制，显著提升执行效率；内置智能筛选系统自动过滤低质或涉隐图片和文字内容；人机交互场景下支持智能提示与接管，并通过加密与前端保护机制保障用户隐私安全。Skywork Browser Agent 通过模拟人类浏览与交互方式，革新传统数据采集与分析模式，精准高效地完成智能搜索、多模态信息分析与社区内容洞察，在长周期的 VLA（视觉 – 语言 – 动作）任务中展现巨大潜力。不过，这一功能尚处于内测和邀测阶段，预计下周向全部用户开放。

全栈式演进，构建从数据、算法到多智能体系统的智能基座。从一系列实测来看，昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已今非昔比，堪称「独立思考、深度执行的智能工作伙伴」。特别是在信息检索、整理、总结以及复杂任务的执行中，展现出惊人的效率与准确性，背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制，包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。作为 AI 三大核心要素之一，数据层面的优化至关重要。昆仑万维自研了一套端到端深度信息问题合成流程，使系统生成高质量搜索查询数据集成为可能。首先，制定数据质量标准，明确高质量搜索问题与答案的五大核心标准：多样性、正确性、唯一性、可验证性和挑战性，确保每个生成的查询覆盖广泛主题和难度层次，同时答案准确、唯一可靠且可验证。然后，通过多渠道收集互联网数据，构建初步种子池，利用自动化筛选系统评估挑选优质素材，为后续问题构造提供优质素材。接下来，处理复杂且具有挑战性的问题，利用深度信息收集技术从多个信息源提取线索，将具体信息抽象为高难度搜索查询，并采用迭代式增强策略将简单搜索转化为多步推理的复杂问题。过程中引入层次化推理链和信息混淆技术，进一步提升问题复杂度和模型推理能力。一番流程跑下来，每个环节的数据质量和任务难度都得到严格控制，尤其是覆盖五大标准的高难度问题体系，为大规模、端到端的强化学习提供了数据基础。

想要提升 Agent 模型的学习效率和推理能力，需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题。为此，昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架，采用 GRPO 算法和动态课程学习机制，确保训练过程中数据维持在最佳难度区间，避免简单和过难问题的干扰；同时动态更新数据集并补入新数据，使模型始终处于有效「学习区」内。为了进一步提升验证精度和奖励的有效性，创新性地引入了基于线索的生成式密集奖励机制，并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励，若未能输出则进一步分析问题构造阶段保存的线索进行过程评估，并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程，提升学习效率和推理能力的目标得以实现。

性能得到保障的同时，效率也必须提升。昆仑万维自研的并行推理框架发挥了关键作用。此前谷歌 DeepMind 在其最新 Gemini2.5Deep Think 推理模型中通过生成多个 Agent 来并行处理任务，并摘得 IMO2025 竞赛金牌，有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新，昆仑万维在显著提升推理效率的同时大大节省了计算资源。一是并行思考模式，在每一步生成多个候选推理路径并筛选最优路径，避免推理链断裂、逻辑冲突导致的失效行为；同时通过多节点异步推理架构，有效缩短推理时间并提升计算资源使用效率。二是在多步推理规划中引入生成式评估方案，对多个候选路径进行打分和筛选，结合锦标赛排序机制确定最优推理轨迹，并利用异步推理机制降低计算负担和时间开销。三是在并行推理过程中引入熵自适应剪枝技术，动态调整路径选择，减少冗余计算，降低资源开销。环环相扣，保证系统面对复杂动态任务依然稳定高效。并行思考模式下，Skywork Deep Research 的正确率随思考时间延长持续攀升，验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外，Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富，MCP（模型上下文协议）外接工具的作用越来越大，但工具数量和复杂度的增加需要更高效的自动化管理工具。针对此，MCP 工具自动创建技术应运而生，通过对工具定义的标准化管理和实时同步，大幅减少人为错误，提升系统响应速度和工具链的灵活性。在这一 MCP Manager Agent 的基础上，形成了一个将模型能力与工具能力结合的协同多智能体框架，不仅能高效组织多个 Agent 协作，还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。整体架构中展示了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。这一套系统性的升级，无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性，构筑起 Agent 模型强大的智能基座，在实操中释放出更强的稳定性、泛化性与创造性。

写在最后。2025年已过半，我们明显感受到：伴随 Scaling Laws 逐渐放缓的影响，国内外 AI 玩家追求单一最强通用大模型的热度有所降温，就连 OpenAI 至今最强的旗舰模型 GPT-5也被吐槽缺乏突破性体验。相反，成果开源与应用落地成为业界普遍关注的焦点。可以说，AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态，同时率先将 AI 能力转化为可规模化部署的商业生产力，谁就更能在新一轮 AI 竞赛中抢占战略高地。昆仑万维为期一周的模型发布，既是其 AI 技术成果的集中亮相，也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互，还是 Agent 驱动的自动化任务执行、音乐创作灵感激发，昆仑万维从基座模型到多模态交互系统的全栈式布局再次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力，通过打造全方位的产品矩阵，以期在全球 AI 竞争格局中稳固并扩大自身领先优势。其中，作为当前加速大模型落地的核心途径，Agent 的重要性已在业界达成共识。我们可以期待，此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界，有望为整个 AI 行业带来更高效、更智能的解决方案。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳

最新快讯

2025年11月18日

名创IP战略曝光潮玩行业IP争夺战升级

杨立昆离职创业押注世界模型挑战Meta LLM路线

小鹏零跑吉利三车企三季报盈利改善共拓海外市场

中国六城跻身全球科研十强首次占据榜单半数

沃尔玛沃集鲜品牌升级简单为鲜近千新品提升购物体验

闲鱼华中首店落地武汉循环经济年底将超20家门店

韩国内存价格暴涨超三倍 AI热潮推高DIY市场成本

重庆发布48项科技攻关揭榜项目总金额超3亿元聚焦四大领域

华为Mate X7将搭载超可靠折叠玄武架构提升耐用性

上海浦东聚焦微纳机器人等医疗器械创新赛道加速布局

横尾太郎回应质疑坦承多款游戏项目夭折

零跑A10广州车展全球首秀海苔绿橡果棕新配色曝光