声明:本文来自于微信公众号 机器之心,作者:机器之心,授权站长之家转载发布。七月的浪潮逐渐退去,国产大模型领域却掀起了前所未有的开源热潮。若要用一个词概括这个月的热点,那无疑是「开源」。从昆仑万维到阿里、智谱,再到月之暗面、腾讯、阶跃星辰等众多玩家,开源大模型如雨后春笋般涌现。根据 Hugging Face 发布的中国 AI 社区七月开放成果报告,短短一个月内开源模型数量竟高达33款,展现出国产大模型蓬勃发展的态势。进入八月,这一趋势依旧如火如荼,重量级成果接连发布,热度持续升温。其中,昆仑万维更是连续发力,在七月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3以及多模态统一预训练模型 Skywork UniPic 后,于本周一正式启动了Skywork AI 技术发布周!五天时间里,每天都有新模型亮相,涵盖了视频生成、世界模型、生图一体化等多个多模态 AI 核心赛道,内容丰富,干货满满。8月14日,昆仑万维在技术发布周的第四天重磅发布了最新 Agent 成果,为其在智能体领域的探索与布局注入了新的活力。不久前,昆仑万维推出的全球首款 Office 智能体——天工超级智能体(Skywork Super Agents),凭借一站式生成能力在多个榜单中名列前茅,在文档、PPT、Excel、网页、播客等多任务执行中展现出卓越表现。此次,昆仑万维将天工超级智能体的核心引擎Skywork Deep Research Agent 升级至 V2 版本,不仅将深度调研体验提升至全新高度,还在多模态信息检索与生成、浏览器智能体任务中实现了性能、稳定性与智能化水平的全面跃升。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图

性能表现究竟有多出色?先来看一组权威数据。在权威搜索评测榜单 BrowseComp 中,Skywork Deep Research 在常规推理模式下正确率已达到27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外主流同类产品;而在自主研发的「并行思考」模式下,准确率更是跃升至38.7%,一举刷新行业 SOTA 记录,将 Grok-4 等所有竞品甩在身后。此外,在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中,Skywork Deep Research Agent 同样刷新 SOTA 成绩,超越所有竞品,在复杂任务中的硬核表现为其技术含金量提供了有力背书。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图1

赶快来体验天工超级智能体(Skywork Super Agents)!
全球官网:https://skywork.ai
国内官网:https://tiangong.cn

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图2

这位 Agent 新面孔在实操中能否达到预期?一手实测给出了令人惊喜的答案。Agent 深度研究的全感知时代始于多模态信息检索。去年12月,谷歌推出的 Gemini Deep Research 功能标志着全球首个 AI 研究助手的诞生。该功能可自动浏览网页、整合关键信息,并生成结构化的研究报告,让传统研究员几天的活儿仅需几分钟就能完成。这一功能迅速引发业界关注,OpenAI、xAI、Perplexity AI 等大模型厂商纷纷跟进,推出自家的 Deep Research。尽管这些功能在提取和整理文字信息时效率较高,但它们过于依赖纯文本检索,往往忽视图片、图表等视觉内容。而互联网上超过一半的关键信息以图文混排形式呈现,如财报中的曲线、科研论文里的实验图、社交媒体上的对比照等,若忽视这些视觉信息,研究报告的完整性和准确性将大打折扣。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图3

为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能识别并处理图片、图表,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更全面、准确的报告。例如,输入提示词「请配合丰富的图表,详细揭示2025年特斯拉在中国的销售情况,并分析销量变化的核心原因」,它首先会弹出表单让用户勾选任务需求,包括写作语言、篇幅、分析维度、图表类型偏好等,确保报告内容、深度和呈现方式符合用户需求。确认需求后,它会生成待办清单,调用工具搜索浏览网页、整合信息,尤其涉及图片部分会自动调用 MCP 工具进行图片分析和图表制作。在浏览180个网页、使用54个信源后,最终输出一份包含丰富图表的特斯拉中国销量分析报告,其中每个数据都标注来源,鼠标一点即可跳转,并根据文字内容自动插入对应图片和图注。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图4

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区,被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力,离不开四大核心技术突破:多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现。首先,利用 MM-Crawler 工具并行爬取结构化文本、二进制图片和元数据,通过「视觉噪声剪枝」技术剔除低信息密度图片,平均减少65%的冗余图片流量。其次,利用大规模「文字 – 图片 – 推理链」合成数据训练,实现长距离上下文感知与图片信息增益判断能力,将真正需要深入推理的图片数量压缩至一半,有效节省计算资源。第三,利用异步并行 Multi-Agent 架构,将不同任务智能调度给不同 Agent 并行执行,结合「多轨执行 + 流水整合」设计,提升多模态检索与理解效率。最后,在结果生成阶段,支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式,既可将图片信息融入文字解读,也可插入原图并融合多图、多模态信息后重绘综合性图表,输出信息完整、视觉友好的深度报告。目前,该功能已上线 skywork.ai 官网,人人可体验。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图5

突破传统浏览器 Agent 瓶颈,深入挖掘社交平台内容。Skywork Deep Research Agent V2的另一大功能模块是多模态深度浏览器智能体(Skywork Browser Agent)。传统浏览器智能体存在执行效率差、成功率低、平台壁垒导致任务中断、复杂边缘场景适应能力弱等问题。昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力,它不仅能高效分析社交媒体上的文本信息,还能精准筛选提取图片、视频及评论区的情感与观点,提供更全面的信息洞察。在网页浏览的全过程中,它始终有条不紊、规划周密,这一切都依托于自研模型的非凡推理能力。此外,它还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观易懂的可视化报告,并支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止工作流阻塞,大幅提升执行效率。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图6

举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映4天就斩获近2亿元票房。不过,对于这部打磨13年的影片,网友评价两极分化。我们让 Skywork Browser Agent 基于用户反馈生成电影《戏台》上映后网友评价的分析报告网页。工作流程与前文相似:勾选补充信息、生成待办清单,然后调用 MCP 工具执行任务。比如会弹出一个 Skywork 虚拟机显示浏览器 agent 的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」搜索,进入电影链接详情页收集信息和用户评论。搜完信息后,它开始搭建网页,开发 HTML 页面框架,划分内容区块;设计 CSS 样式,确保页面美观易读;使用 JavaScript 实现数据可视化和交互功能,同时下载并配置相关图片资源。若觉得生成网页不符合预期,还可与浏览器 Agent 进行多轮交互,根据当前网页进行二次编辑,Skywork Browser Agent 强大的指令跟随能力完美支持这一操作。最后生成的网页结构清晰、设计精美,内容涵盖电影基本信息、票房表现、评分对比等关键数据,网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表极大提升了信息的可读性和直观性。通过简单点击与交互,可深入了解影片的正负面评价及争议点。为测试稳定性,我们还进行了有趣的实验——浏览周杰伦的 Instagram,并打造一款粉丝应援网站。结果显示,制作的网页功能完整,视觉风格独特,效果出色。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图7

如此高效稳定的网页浏览能力,要归功于以下自研关键技术方案:集成强大的多模态推理模型与优化的 DOM 解析能力,提供卓越性能的核心支撑;主流平台动作适配与并行搜索 / 多动作规划机制,显著提升执行效率;内置智能筛选系统自动过滤低质或涉隐图片和文字内容;人机交互场景下支持智能提示与接管,并通过加密与前端保护机制保障用户隐私安全。Skywork Browser Agent 通过模拟人类浏览与交互方式,革新传统数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的 VLA(视觉 – 语言 – 动作)任务中展现巨大潜力。不过,这一功能尚处于内测和邀测阶段,预计下周向全部用户开放。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图8

全栈式演进,构建从数据、算法到多智能体系统的智能基座。从一系列实测来看,昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已今非昔比,堪称「独立思考、深度执行的智能工作伙伴」。特别是在信息检索、整理、总结以及复杂任务的执行中,展现出惊人的效率与准确性,背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。作为 AI 三大核心要素之一,数据层面的优化至关重要。昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。首先,制定数据质量标准,明确高质量搜索问题与答案的五大核心标准:多样性、正确性、唯一性、可验证性和挑战性,确保每个生成的查询覆盖广泛主题和难度层次,同时答案准确、唯一可靠且可验证。然后,通过多渠道收集互联网数据,构建初步种子池,利用自动化筛选系统评估挑选优质素材,为后续问题构造提供优质素材。接下来,处理复杂且具有挑战性的问题,利用深度信息收集技术从多个信息源提取线索,将具体信息抽象为高难度搜索查询,并采用迭代式增强策略将简单搜索转化为多步推理的复杂问题。过程中引入层次化推理链和信息混淆技术,进一步提升问题复杂度和模型推理能力。一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为大规模、端到端的强化学习提供了数据基础。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图9

想要提升 Agent 模型的学习效率和推理能力,需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题。为此,昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架,采用 GRPO 算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新数据,使模型始终处于有效「学习区」内。为了进一步提升验证精度和奖励的有效性,创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出则进一步分析问题构造阶段保存的线索进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图10

性能得到保障的同时,效率也必须提升。昆仑万维自研的并行推理框架发挥了关键作用。此前谷歌 DeepMind 在其最新 Gemini2.5Deep Think 推理模型中通过生成多个 Agent 来并行处理任务,并摘得 IMO2025 竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。一是并行思考模式,在每一步生成多个候选推理路径并筛选最优路径,避免推理链断裂、逻辑冲突导致的失效行为;同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率。二是在多步推理规划中引入生成式评估方案,对多个候选路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低计算负担和时间开销。三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。并行思考模式下,Skywork Deep Research 的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外,Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,但工具数量和复杂度的增加需要更高效的自动化管理工具。针对此,MCP 工具自动创建技术应运而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。在这一 MCP Manager Agent 的基础上,形成了一个将模型能力与工具能力结合的协同多智能体框架,不仅能高效组织多个 Agent 协作,还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。整体架构中展示了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。这一套系统性的升级,无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性,构筑起 Agent 模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。

写在最后。2025年已过半,我们明显感受到:伴随 Scaling Laws 逐渐放缓的影响,国内外 AI 玩家追求单一最强通用大模型的热度有所降温,就连 OpenAI 至今最强的旗舰模型 GPT-5也被吐槽缺乏突破性体验。相反,成果开源与应用落地成为业界普遍关注的焦点。可以说,AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将 AI 能力转化为可规模化部署的商业生产力,谁就更能在新一轮 AI 竞赛中抢占战略高地。昆仑万维为期一周的模型发布,既是其 AI 技术成果的集中亮相,也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是 Agent 驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局再次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球 AI 竞争格局中稳固并扩大自身领先优势。其中,作为当前加速大模型落地的核心途径,Agent 的重要性已在业界达成共识。我们可以期待,此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,有望为整个 AI 行业带来更高效、更智能的解决方案。

最新快讯

2025年11月18日

13:37
11月18日12时15分,西藏阿里地区改则县突发3.7级地震,震源深度达28千米。经初步测定,震中坐标位于北纬32.85度、东经84.87度。值得庆幸的是,截至最新消息,当地尚未收到任何人员伤亡及财产损失的报告,这无疑为此次地震增添了一丝安慰。 面对这一自然现象,当地相关部门已迅速启动应急响应机制,第一时间组织专业队伍展开灾情排查工作。目前,救援人员正对震区...
13:37
2025年11月18日,全球领先的芯片制造商格芯正式宣布达成一项重大战略交易,成功收购了位于新加坡的先进微晶圆代工厂Advanced Micro Foundry。这一举措标志着格芯在硅光子技术领域的布局再添关键棋子,为其巩固全球代工市场领导地位注入强劲动力。根据格芯官方声明,通过此次并购,公司将成为全球收入规模最大的硅光子代工平台,进一步巩固其在下一代光电子...
13:37
2025年上半年,中国视频云市场迎来强劲复苏,整体规模达到52.3亿美元,同比增长8.9%,成功扭转了此前下滑趋势。这一关键数据由权威市场研究机构国际数据公司(IDC)在其最新发布的市场分析报告中正式揭晓。报告深入剖析了市场动态,特别指出音视频AI实时互动与智能媒体生产等前沿AI应用场景表现亮眼,半年内市场规模突破四千万美元大关,同比增幅高达三位数,展现出惊...
13:05
2025年11月18日,蓝思科技旗下全资子公司蓝思智能机器人在浏阳经开区永安园区迎来历史性时刻,全新生产基地正式投产运营。这座现代化基地占地高达400亩,拥有约18.9万平方米的宽敞厂房,将全面打造年产1万台套大型自动化设备与50万台具身智能机器人的强大产能,为全球AI硬件市场注入强劲动力。 该项目实现了从新材料研发到核心部件制造,再到整机组装的全产业链垂直...
13:05
2025年11月18日,维业股份正式宣布其全资子公司建泰建设与明信建筑置业有限公司组成的联合体,成功中标澳门大学横琴粤澳深度合作区校区南区的总承包工程。这一重要项目由广东横琴澳大高等教育发展有限公司负责发包,中标金额高达约20.86亿元人民币,标志着维业股份在大型基建领域取得了又一关键突破。 据悉,建泰建设与明信建筑经过激烈竞争,最终凭借卓越的综合实力和丰富...
13:05
11月17日,备受瞩目的北京海淀区上地0702街区综合用地正式进入公开出让阶段。这一地块位于素有"中国硅谷"之称的上地片区核心地带,总用地面积达7.71万平方米,规划总建筑面积约22.54万平方米,起始总价高达84.22亿元,折合楼面起价37366元/平方米,显示出其非凡的增值潜力。 该地块由三幅子地块构成,地理位置得天独厚,地处中关村软件园与上地产业集群的...
13:05
2025年11月18日,三木集团通过官方互动平台正式作出澄清,明确表示公司目前并未在福建省平潭县开展任何形式的工程项目或投资活动。此次公开声明的主要目的是为了有效回应近期市场流传的相关传闻,消除外界疑虑,确保信息透明度。三木集团在声明中强调,当前公司的战略重心依然聚焦于已建立的核心业务区域,所有经营活动都在既定框架内有序推进。对于未来可能的新投资计划,公司承...
13:05
2025年11月18日,备受瞩目的拉丁美洲代表团正式到访国联股份旗下肥多多公司,双方围绕“数字全球国际会客厅”平台的共建方案以及农业产业链的跨境合作展开了深度交流。此次会晤不仅聚焦于数字化技术的创新应用,更深入探讨了如何通过高效协作整合全球农业资源,实现产业链的优化升级。 在随后的签约仪式上,肥多多分别与中东辽宁总商会、中国拉丁美洲国际集团、内文卡数字公司以...
13:05
2025年11月18日,备受瞩目的第八届中国国际进口博览会在上海盛大开幕,同期举办的配套会议“2025全球贸易与国际物流高峰论坛”吸引了全球行业领袖共襄盛举。在此次盛会中,运满满冷运凭借其创新性的《数智驱动的冷链平台解决方案》脱颖而出,荣获“2025物流与供应链解决方案全链价值实践成果”殊荣。这一奖项是对运满满冷运在物流与供应链领域所展现出的卓越创新能力和行...
13:05
2025年11月18日,美团LongCat团队正式发布了备受瞩目的数学推理评测基准AMO-Bench,为人工智能在复杂数学推理领域的发展注入强劲动力。这一评测集精心收录了50道由竞赛专家原创的数学试题,其难度不仅对标国际数学奥林匹克(IMO)水平,更在多个维度上实现了超越,堪称人工智能逻辑推理能力的试金石。AMO-Bench的推出,将构建一个高标准、高难度的...
12:37
11月18日,OceanBase在2025年度发布会上重磅发布了其首款AI数据库——OceanBase SeekDB(简称SeekDB),正式开启AI数据库开源时代。这款创新产品通过仅需三行代码的极简开发方式,即可让开发者快速构建知识库、智能体等前沿AI应用,轻松应对百亿级多模态数据的复杂检索需求,真正实现"开箱即用"的AI数据基座体验。 SeekDB的核心...
12:30
大秦铁路11月煤炭运输量再创新高,截至17日累计发送2116.6万吨,日均发送量达到124.5万吨,环比增长23.9万吨。这一亮眼成绩的背后,是我国北方地区提前进入供暖季带来的强劲需求支撑。受强冷空气持续影响,多地气温骤降,北方供暖需求激增,煤炭运输市场迎来年度高峰。作为我国西煤东运战略通道的核心动脉,大秦铁路近期运力持续保持高位,日均发运量稳定突破120万...