声明:本文来自于微信公众号 机器之心,作者:机器之心,授权站长之家转载发布。七月的浪潮逐渐退去,国产大模型领域却掀起了前所未有的开源热潮。若要用一个词概括这个月的热点,那无疑是「开源」。从昆仑万维到阿里、智谱,再到月之暗面、腾讯、阶跃星辰等众多玩家,开源大模型如雨后春笋般涌现。根据 Hugging Face 发布的中国 AI 社区七月开放成果报告,短短一个月内开源模型数量竟高达33款,展现出国产大模型蓬勃发展的态势。进入八月,这一趋势依旧如火如荼,重量级成果接连发布,热度持续升温。其中,昆仑万维更是连续发力,在七月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3以及多模态统一预训练模型 Skywork UniPic 后,于本周一正式启动了Skywork AI 技术发布周!五天时间里,每天都有新模型亮相,涵盖了视频生成、世界模型、生图一体化等多个多模态 AI 核心赛道,内容丰富,干货满满。8月14日,昆仑万维在技术发布周的第四天重磅发布了最新 Agent 成果,为其在智能体领域的探索与布局注入了新的活力。不久前,昆仑万维推出的全球首款 Office 智能体——天工超级智能体(Skywork Super Agents),凭借一站式生成能力在多个榜单中名列前茅,在文档、PPT、Excel、网页、播客等多任务执行中展现出卓越表现。此次,昆仑万维将天工超级智能体的核心引擎Skywork Deep Research Agent 升级至 V2 版本,不仅将深度调研体验提升至全新高度,还在多模态信息检索与生成、浏览器智能体任务中实现了性能、稳定性与智能化水平的全面跃升。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图

性能表现究竟有多出色?先来看一组权威数据。在权威搜索评测榜单 BrowseComp 中,Skywork Deep Research 在常规推理模式下正确率已达到27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外主流同类产品;而在自主研发的「并行思考」模式下,准确率更是跃升至38.7%,一举刷新行业 SOTA 记录,将 Grok-4 等所有竞品甩在身后。此外,在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中,Skywork Deep Research Agent 同样刷新 SOTA 成绩,超越所有竞品,在复杂任务中的硬核表现为其技术含金量提供了有力背书。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图1

赶快来体验天工超级智能体(Skywork Super Agents)!
全球官网:https://skywork.ai
国内官网:https://tiangong.cn

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图2

这位 Agent 新面孔在实操中能否达到预期?一手实测给出了令人惊喜的答案。Agent 深度研究的全感知时代始于多模态信息检索。去年12月,谷歌推出的 Gemini Deep Research 功能标志着全球首个 AI 研究助手的诞生。该功能可自动浏览网页、整合关键信息,并生成结构化的研究报告,让传统研究员几天的活儿仅需几分钟就能完成。这一功能迅速引发业界关注,OpenAI、xAI、Perplexity AI 等大模型厂商纷纷跟进,推出自家的 Deep Research。尽管这些功能在提取和整理文字信息时效率较高,但它们过于依赖纯文本检索,往往忽视图片、图表等视觉内容。而互联网上超过一半的关键信息以图文混排形式呈现,如财报中的曲线、科研论文里的实验图、社交媒体上的对比照等,若忽视这些视觉信息,研究报告的完整性和准确性将大打折扣。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图3

为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能识别并处理图片、图表,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更全面、准确的报告。例如,输入提示词「请配合丰富的图表,详细揭示2025年特斯拉在中国的销售情况,并分析销量变化的核心原因」,它首先会弹出表单让用户勾选任务需求,包括写作语言、篇幅、分析维度、图表类型偏好等,确保报告内容、深度和呈现方式符合用户需求。确认需求后,它会生成待办清单,调用工具搜索浏览网页、整合信息,尤其涉及图片部分会自动调用 MCP 工具进行图片分析和图表制作。在浏览180个网页、使用54个信源后,最终输出一份包含丰富图表的特斯拉中国销量分析报告,其中每个数据都标注来源,鼠标一点即可跳转,并根据文字内容自动插入对应图片和图注。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图4

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区,被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力,离不开四大核心技术突破:多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现。首先,利用 MM-Crawler 工具并行爬取结构化文本、二进制图片和元数据,通过「视觉噪声剪枝」技术剔除低信息密度图片,平均减少65%的冗余图片流量。其次,利用大规模「文字 – 图片 – 推理链」合成数据训练,实现长距离上下文感知与图片信息增益判断能力,将真正需要深入推理的图片数量压缩至一半,有效节省计算资源。第三,利用异步并行 Multi-Agent 架构,将不同任务智能调度给不同 Agent 并行执行,结合「多轨执行 + 流水整合」设计,提升多模态检索与理解效率。最后,在结果生成阶段,支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式,既可将图片信息融入文字解读,也可插入原图并融合多图、多模态信息后重绘综合性图表,输出信息完整、视觉友好的深度报告。目前,该功能已上线 skywork.ai 官网,人人可体验。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图5

突破传统浏览器 Agent 瓶颈,深入挖掘社交平台内容。Skywork Deep Research Agent V2的另一大功能模块是多模态深度浏览器智能体(Skywork Browser Agent)。传统浏览器智能体存在执行效率差、成功率低、平台壁垒导致任务中断、复杂边缘场景适应能力弱等问题。昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力,它不仅能高效分析社交媒体上的文本信息,还能精准筛选提取图片、视频及评论区的情感与观点,提供更全面的信息洞察。在网页浏览的全过程中,它始终有条不紊、规划周密,这一切都依托于自研模型的非凡推理能力。此外,它还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观易懂的可视化报告,并支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止工作流阻塞,大幅提升执行效率。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图6

举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映4天就斩获近2亿元票房。不过,对于这部打磨13年的影片,网友评价两极分化。我们让 Skywork Browser Agent 基于用户反馈生成电影《戏台》上映后网友评价的分析报告网页。工作流程与前文相似:勾选补充信息、生成待办清单,然后调用 MCP 工具执行任务。比如会弹出一个 Skywork 虚拟机显示浏览器 agent 的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」搜索,进入电影链接详情页收集信息和用户评论。搜完信息后,它开始搭建网页,开发 HTML 页面框架,划分内容区块;设计 CSS 样式,确保页面美观易读;使用 JavaScript 实现数据可视化和交互功能,同时下载并配置相关图片资源。若觉得生成网页不符合预期,还可与浏览器 Agent 进行多轮交互,根据当前网页进行二次编辑,Skywork Browser Agent 强大的指令跟随能力完美支持这一操作。最后生成的网页结构清晰、设计精美,内容涵盖电影基本信息、票房表现、评分对比等关键数据,网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表极大提升了信息的可读性和直观性。通过简单点击与交互,可深入了解影片的正负面评价及争议点。为测试稳定性,我们还进行了有趣的实验——浏览周杰伦的 Instagram,并打造一款粉丝应援网站。结果显示,制作的网页功能完整,视觉风格独特,效果出色。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图7

如此高效稳定的网页浏览能力,要归功于以下自研关键技术方案:集成强大的多模态推理模型与优化的 DOM 解析能力,提供卓越性能的核心支撑;主流平台动作适配与并行搜索 / 多动作规划机制,显著提升执行效率;内置智能筛选系统自动过滤低质或涉隐图片和文字内容;人机交互场景下支持智能提示与接管,并通过加密与前端保护机制保障用户隐私安全。Skywork Browser Agent 通过模拟人类浏览与交互方式,革新传统数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的 VLA(视觉 – 语言 – 动作)任务中展现巨大潜力。不过,这一功能尚处于内测和邀测阶段,预计下周向全部用户开放。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图8

全栈式演进,构建从数据、算法到多智能体系统的智能基座。从一系列实测来看,昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已今非昔比,堪称「独立思考、深度执行的智能工作伙伴」。特别是在信息检索、整理、总结以及复杂任务的执行中,展现出惊人的效率与准确性,背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。作为 AI 三大核心要素之一,数据层面的优化至关重要。昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。首先,制定数据质量标准,明确高质量搜索问题与答案的五大核心标准:多样性、正确性、唯一性、可验证性和挑战性,确保每个生成的查询覆盖广泛主题和难度层次,同时答案准确、唯一可靠且可验证。然后,通过多渠道收集互联网数据,构建初步种子池,利用自动化筛选系统评估挑选优质素材,为后续问题构造提供优质素材。接下来,处理复杂且具有挑战性的问题,利用深度信息收集技术从多个信息源提取线索,将具体信息抽象为高难度搜索查询,并采用迭代式增强策略将简单搜索转化为多步推理的复杂问题。过程中引入层次化推理链和信息混淆技术,进一步提升问题复杂度和模型推理能力。一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为大规模、端到端的强化学习提供了数据基础。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图9

想要提升 Agent 模型的学习效率和推理能力,需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题。为此,昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架,采用 GRPO 算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新数据,使模型始终处于有效「学习区」内。为了进一步提升验证精度和奖励的有效性,创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出则进一步分析问题构造阶段保存的线索进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图10

性能得到保障的同时,效率也必须提升。昆仑万维自研的并行推理框架发挥了关键作用。此前谷歌 DeepMind 在其最新 Gemini2.5Deep Think 推理模型中通过生成多个 Agent 来并行处理任务,并摘得 IMO2025 竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。一是并行思考模式,在每一步生成多个候选推理路径并筛选最优路径,避免推理链断裂、逻辑冲突导致的失效行为;同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率。二是在多步推理规划中引入生成式评估方案,对多个候选路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低计算负担和时间开销。三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。并行思考模式下,Skywork Deep Research 的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外,Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,但工具数量和复杂度的增加需要更高效的自动化管理工具。针对此,MCP 工具自动创建技术应运而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。在这一 MCP Manager Agent 的基础上,形成了一个将模型能力与工具能力结合的协同多智能体框架,不仅能高效组织多个 Agent 协作,还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。整体架构中展示了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。这一套系统性的升级,无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性,构筑起 Agent 模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。

写在最后。2025年已过半,我们明显感受到:伴随 Scaling Laws 逐渐放缓的影响,国内外 AI 玩家追求单一最强通用大模型的热度有所降温,就连 OpenAI 至今最强的旗舰模型 GPT-5也被吐槽缺乏突破性体验。相反,成果开源与应用落地成为业界普遍关注的焦点。可以说,AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将 AI 能力转化为可规模化部署的商业生产力,谁就更能在新一轮 AI 竞赛中抢占战略高地。昆仑万维为期一周的模型发布,既是其 AI 技术成果的集中亮相,也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是 Agent 驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局再次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球 AI 竞争格局中稳固并扩大自身领先优势。其中,作为当前加速大模型落地的核心途径,Agent 的重要性已在业界达成共识。我们可以期待,此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,有望为整个 AI 行业带来更高效、更智能的解决方案。

最新快讯

2025年08月14日

23:50
九号公司交出亮眼业绩,彰显小米生态链发展活力 近期,九号公司发布2025年半年度报告,展现出强劲的增长势头。报告期内,公司营收达到117.4亿元,同比增长76%;利润总额高达17.2亿元,同比增长136.9%。作为小米生态链的重要一员,九号在电动平衡车、电动滑板车等领域的创新成果,正逐步延伸至电动两轮车、割草机器人等新兴业务,其高歌猛进的经营态势备受业界瞩目...
23:50
亲爱的,你慢慢飞,小心前面带刺的玫瑰。这首诞生于 2000 年代的经典歌曲《两只蝴蝶》,近日因“词曲作者靠它赚了 2 个亿”的传闻再次引爆舆论。8 月 12 日,歌曲创作者牛朝阳通过个人社交平台发布视频,亲自澄清了这一引发热议的传言。他明确表示,实际收入与网络盛传的 2 亿天价存在巨大差距,称“从头到尾带给我的全部收入为 5000 元”。 作为华语乐坛的现象...
23:50
2025年8月14日,加拿大黄金矿业公司Galiano的股价表现惊艳市场,一度飙升超过20%。这一显著涨幅的背后,是公司刚刚公布的第二季度财报所展现出的强劲业绩动力。财报数据显示,Galiano在本季度实现了9730万美元的营收,相较于去年同期大幅增长了52.1%。如此亮眼的业绩表现,无疑成为了推动股价飙升的核心因素,也充分彰显了公司在黄金矿业领域的卓越发展...
23:50
2025年8月14日,英国药品和健康产品管理局(MHRA)传来重大消息,正式批准了一款名为Tzield的创新疗法,该疗法专为延缓1型糖尿病发展而设计。这一突破性治疗方案的适用对象为处于疾病早期阶段的患者群体,其核心作用机制在于通过精准干预,有效减缓胰岛β细胞的破坏进程,从而显著推迟糖尿病的进一步恶化。此次MHRA的批准决定,不仅标志着全球糖尿病治疗领域迈出了...
23:50
2025年8月13日夜间大宗商品市场整体呈现震荡下行态势,多数品种价格遭遇下跌压力。其中油脂类商品表现尤为疲软,菜粕主力合约大幅收跌2.65%,主力菜油合约亦下跌1.58%,显示出市场对油脂供应过剩的担忧情绪加剧。同时,橡胶板块承压明显,20号胶主力合约跌1.11%,合成橡胶与烧碱价格同步下挫1.06%,反映出宏观经济走弱对下游消费需求的抑制。棕榈油主力合约...
23:50
2025年8月14日,国际知名投资银行高盛公司正式发布了针对中国科技股的评级报告,首次对紫光股份和长电科技这两家行业领军企业进行独立分析。报告显示,高盛均给予这两家公司中性评级,并分别设定了27.50元和39.30元人民币的目标价。这一评级决策不仅体现了高盛对当前市场环境的审慎判断,更折射出其对于紫光股份和长电科技在当前经济周期中发展前景的谨慎乐观态度。作为...
23:50
2025年8月14日,全球瞩目的社交媒体巨头X(前身为推特)遭遇了严重的系统故障,引发了用户的广泛关注和热议。根据DownDetector平台的实时监测数据显示,大量用户纷纷反馈在使用过程中遭遇了诸多问题,包括但不限于页面加载缓慢甚至完全无法打开、私信发送失败、评论功能异常等。这些故障现象不仅影响了用户的日常使用体验,也给平台的稳定性和可靠性敲响了警钟。 目...
23:50
2025年8月14日,日本骨科医疗领军企业rYojbaba co. Ltd.(简称RYOJ)在美国纳斯达克交易所的首次公开募股(IPO)遭遇冷遇,开盘即跌破发行价。当日收盘时,其股价定格在3.75美元,较每股4美元的发行价折让8.75%。这一令人失望的市场表现不仅令投资者大跌眼镜,更折射出资本市场对该公司估值逻辑与长期发展前景的深度质疑。 作为日本骨科医疗领...
23:50
2025年8月14日,港交所最新披露文件显示,闪回科技有限公司正式向交易所递交了新一轮的上市申请材料。此次申请的独家保荐机构由知名投资机构清科资本独家负责。这一重要举措不仅彰显了闪回科技在资本市场的雄心壮志,更标志着该公司在全球化战略布局上迈出了关键一步。作为一家快速发展的科技创新企业,闪回科技此次选择在亚洲最重要的金融中心之一香港上市,无疑是为了借助其国际...
23:50
截至8月14日收盘,深沪北市场呈现活跃态势,共有38只个股连续5日或以上主力资金净流入,显示出市场资金的持续关注与积极布局。在主力资金净流入排名中,鼎阳科技表现尤为突出,连续10日资金净流入领跑市场,成为资金关注的焦点;中文传媒等个股也连续9日保持净流入状态,展现出较强的市场吸引力。 在净流入金额方面,太辰光以连续6天累计净流入8.43亿元的成绩位居前列,显...
23:50
2025年8月14日,云南省正式发布《云南省支持低空经济健康发展的若干措施》,为高原无人机应用领域注入强劲动力。该政策明确提出多项创新举措,包括免费提供高原无人机测试服务,着力建设专业试验基地,旨在打造全链条测试能力体系。为确保政策落地,云南省政府还特别设立了专项资金,对测试项目给予全方位资金支持。根据规划,省级财政将承担70%的运营成本,州(市)级财政则分...
23:50
8月14日下午至17日白天,山东省将迎来一场强降雨天气过程,局部地区降水量预计可达100至200毫米。此次降雨呈现出明显的空间分布不均特征,中北部地区将成为雨量集中区域,小时最大降水量或突破40至80毫米。为应对可能出现的汛情,山东省防汛抗旱指挥部于14日18时紧急启动防汛四级应急响应,覆盖济南、淄博、东营、烟台等9个重点城市。值得注意的是,此次降雨与前期降...