声明:本文来自于微信公众号 机器之心,作者:机器之心,授权站长之家转载发布。七月的浪潮逐渐退去,国产大模型领域却掀起了前所未有的开源热潮。若要用一个词概括这个月的热点,那无疑是「开源」。从昆仑万维到阿里、智谱,再到月之暗面、腾讯、阶跃星辰等众多玩家,开源大模型如雨后春笋般涌现。根据 Hugging Face 发布的中国 AI 社区七月开放成果报告,短短一个月内开源模型数量竟高达33款,展现出国产大模型蓬勃发展的态势。进入八月,这一趋势依旧如火如荼,重量级成果接连发布,热度持续升温。其中,昆仑万维更是连续发力,在七月接连开源第二代奖励模型 Skywork-Reward-V2、多模态理解模型 Skywork-R1V3以及多模态统一预训练模型 Skywork UniPic 后,于本周一正式启动了Skywork AI 技术发布周!五天时间里,每天都有新模型亮相,涵盖了视频生成、世界模型、生图一体化等多个多模态 AI 核心赛道,内容丰富,干货满满。8月14日,昆仑万维在技术发布周的第四天重磅发布了最新 Agent 成果,为其在智能体领域的探索与布局注入了新的活力。不久前,昆仑万维推出的全球首款 Office 智能体——天工超级智能体(Skywork Super Agents),凭借一站式生成能力在多个榜单中名列前茅,在文档、PPT、Excel、网页、播客等多任务执行中展现出卓越表现。此次,昆仑万维将天工超级智能体的核心引擎Skywork Deep Research Agent 升级至 V2 版本,不仅将深度调研体验提升至全新高度,还在多模态信息检索与生成、浏览器智能体任务中实现了性能、稳定性与智能化水平的全面跃升。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图

性能表现究竟有多出色?先来看一组权威数据。在权威搜索评测榜单 BrowseComp 中,Skywork Deep Research 在常规推理模式下正确率已达到27.8%,超越了 GLM-4.5、StepFun Deep Research、Claude-4-Opus 等国内外主流同类产品;而在自主研发的「并行思考」模式下,准确率更是跃升至38.7%,一举刷新行业 SOTA 记录,将 Grok-4 等所有竞品甩在身后。此外,在全球最具挑战性、覆盖最广的智能体基准测试集 GAIA 中,Skywork Deep Research Agent 同样刷新 SOTA 成绩,超越所有竞品,在复杂任务中的硬核表现为其技术含金量提供了有力背书。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图1

赶快来体验天工超级智能体(Skywork Super Agents)!
全球官网:https://skywork.ai
国内官网:https://tiangong.cn

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图2

这位 Agent 新面孔在实操中能否达到预期?一手实测给出了令人惊喜的答案。Agent 深度研究的全感知时代始于多模态信息检索。去年12月,谷歌推出的 Gemini Deep Research 功能标志着全球首个 AI 研究助手的诞生。该功能可自动浏览网页、整合关键信息,并生成结构化的研究报告,让传统研究员几天的活儿仅需几分钟就能完成。这一功能迅速引发业界关注,OpenAI、xAI、Perplexity AI 等大模型厂商纷纷跟进,推出自家的 Deep Research。尽管这些功能在提取和整理文字信息时效率较高,但它们过于依赖纯文本检索,往往忽视图片、图表等视觉内容。而互联网上超过一半的关键信息以图文混排形式呈现,如财报中的曲线、科研论文里的实验图、社交媒体上的对比照等,若忽视这些视觉信息,研究报告的完整性和准确性将大打折扣。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图3

为解决这一痛点,昆仑万维推出了业界首个「多模态深度调研」Agent。通过创新性地整合多模态检索理解和跨模态生成能力,它不仅能识别并处理图片、图表,还能将图片中的关键信息融入报告中,并生成图注和综合性图表,为研究人员提供更全面、准确的报告。例如,输入提示词「请配合丰富的图表,详细揭示2025年特斯拉在中国的销售情况,并分析销量变化的核心原因」,它首先会弹出表单让用户勾选任务需求,包括写作语言、篇幅、分析维度、图表类型偏好等,确保报告内容、深度和呈现方式符合用户需求。确认需求后,它会生成待办清单,调用工具搜索浏览网页、整合信息,尤其涉及图片部分会自动调用 MCP 工具进行图片分析和图表制作。在浏览180个网页、使用54个信源后,最终输出一份包含丰富图表的特斯拉中国销量分析报告,其中每个数据都标注来源,鼠标一点即可跳转,并根据文字内容自动插入对应图片和图注。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图4

这番实测意味着谷歌 Gemini Deep Research 搞定不了的图文盲区,被昆仑万维的 Agent 轻松拿捏。让 AI 真正具备专业研究人员的感知与表达能力,离不开四大核心技术突破:多模态爬取、长距离多模态信息收集、异步并行 Multi-Agent 多模态理解架构和多模态结果呈现。首先,利用 MM-Crawler 工具并行爬取结构化文本、二进制图片和元数据,通过「视觉噪声剪枝」技术剔除低信息密度图片,平均减少65%的冗余图片流量。其次,利用大规模「文字 – 图片 – 推理链」合成数据训练,实现长距离上下文感知与图片信息增益判断能力,将真正需要深入推理的图片数量压缩至一半,有效节省计算资源。第三,利用异步并行 Multi-Agent 架构,将不同任务智能调度给不同 Agent 并行执行,结合「多轨执行 + 流水整合」设计,提升多模态检索与理解效率。最后,在结果生成阶段,支持信息「转写 — 插图 — 重绘」三位一体的自动生成方式,既可将图片信息融入文字解读,也可插入原图并融合多图、多模态信息后重绘综合性图表,输出信息完整、视觉友好的深度报告。目前,该功能已上线 skywork.ai 官网,人人可体验。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图5

突破传统浏览器 Agent 瓶颈,深入挖掘社交平台内容。Skywork Deep Research Agent V2的另一大功能模块是多模态深度浏览器智能体(Skywork Browser Agent)。传统浏览器智能体存在执行效率差、成功率低、平台壁垒导致任务中断、复杂边缘场景适应能力弱等问题。昆仑万维此次推出的 Skywork Browser Agent 巧妙化解了这些痛点。借助深度多模态内容理解能力,它不仅能高效分析社交媒体上的文本信息,还能精准筛选提取图片、视频及评论区的情感与观点,提供更全面的信息洞察。在网页浏览的全过程中,它始终有条不紊、规划周密,这一切都依托于自研模型的非凡推理能力。此外,它还能自动进行线上社区内容的高效数据分析,将枯燥的调研工作转化为直观易懂的可视化报告,并支持一键式网站部署,将抓取的关键图片与分析内容生成独立网站,方便展示和分享。针对社交平台登录墙的难点,配备了智能化接管机制;为每个执行步骤设置了自适应超时控制,有效防止工作流阻塞,大幅提升执行效率。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图6

举个例子。最近,喜剧大师陈佩斯带着自编自导自演的《戏台》回归大荧幕,公映4天就斩获近2亿元票房。不过,对于这部打磨13年的影片,网友评价两极分化。我们让 Skywork Browser Agent 基于用户反馈生成电影《戏台》上映后网友评价的分析报告网页。工作流程与前文相似:勾选补充信息、生成待办清单,然后调用 MCP 工具执行任务。比如会弹出一个 Skywork 虚拟机显示浏览器 agent 的操作轨迹:它可以自动打开豆瓣电影首页,输入「戏台」搜索,进入电影链接详情页收集信息和用户评论。搜完信息后,它开始搭建网页,开发 HTML 页面框架,划分内容区块;设计 CSS 样式,确保页面美观易读;使用 JavaScript 实现数据可视化和交互功能,同时下载并配置相关图片资源。若觉得生成网页不符合预期,还可与浏览器 Agent 进行多轮交互,根据当前网页进行二次编辑,Skywork Browser Agent 强大的指令跟随能力完美支持这一操作。最后生成的网页结构清晰、设计精美,内容涵盖电影基本信息、票房表现、评分对比等关键数据,网页内的观众评分分布、情感倾向分析和热点话题图云等可视化图表极大提升了信息的可读性和直观性。通过简单点击与交互,可深入了解影片的正负面评价及争议点。为测试稳定性,我们还进行了有趣的实验——浏览周杰伦的 Instagram,并打造一款粉丝应援网站。结果显示,制作的网页功能完整,视觉风格独特,效果出色。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图7

如此高效稳定的网页浏览能力,要归功于以下自研关键技术方案:集成强大的多模态推理模型与优化的 DOM 解析能力,提供卓越性能的核心支撑;主流平台动作适配与并行搜索 / 多动作规划机制,显著提升执行效率;内置智能筛选系统自动过滤低质或涉隐图片和文字内容;人机交互场景下支持智能提示与接管,并通过加密与前端保护机制保障用户隐私安全。Skywork Browser Agent 通过模拟人类浏览与交互方式,革新传统数据采集与分析模式,精准高效地完成智能搜索、多模态信息分析与社区内容洞察,在长周期的 VLA(视觉 – 语言 – 动作)任务中展现巨大潜力。不过,这一功能尚处于内测和邀测阶段,预计下周向全部用户开放。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图8

全栈式演进,构建从数据、算法到多智能体系统的智能基座。从一系列实测来看,昆仑万维此次的 Agent 产品在自主性、交互性、任务完成度等方面已今非昔比,堪称「独立思考、深度执行的智能工作伙伴」。特别是在信息检索、整理、总结以及复杂任务的执行中,展现出惊人的效率与准确性,背后依托的是 Skywork Deep Research Agent V2 引入的多项关键提升机制,包括高质量数据合成、端到端强化学习、高效并行推理以及多智能体演进系统。作为 AI 三大核心要素之一,数据层面的优化至关重要。昆仑万维自研了一套端到端深度信息问题合成流程,使系统生成高质量搜索查询数据集成为可能。首先,制定数据质量标准,明确高质量搜索问题与答案的五大核心标准:多样性、正确性、唯一性、可验证性和挑战性,确保每个生成的查询覆盖广泛主题和难度层次,同时答案准确、唯一可靠且可验证。然后,通过多渠道收集互联网数据,构建初步种子池,利用自动化筛选系统评估挑选优质素材,为后续问题构造提供优质素材。接下来,处理复杂且具有挑战性的问题,利用深度信息收集技术从多个信息源提取线索,将具体信息抽象为高难度搜索查询,并采用迭代式增强策略将简单搜索转化为多步推理的复杂问题。过程中引入层次化推理链和信息混淆技术,进一步提升问题复杂度和模型推理能力。一番流程跑下来,每个环节的数据质量和任务难度都得到严格控制,尤其是覆盖五大标准的高难度问题体系,为大规模、端到端的强化学习提供了数据基础。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图9

想要提升 Agent 模型的学习效率和推理能力,需要克服传统 RLHF 奖励模型主观性强和易受攻击的难题。为此,昆仑万维提出了非对称验证驱动的强化学习方法。具体到训练框架,采用 GRPO 算法和动态课程学习机制,确保训练过程中数据维持在最佳难度区间,避免简单和过难问题的干扰;同时动态更新数据集并补入新数据,使模型始终处于有效「学习区」内。为了进一步提升验证精度和奖励的有效性,创新性地引入了基于线索的生成式密集奖励机制,并利用生成式奖励模型为 Agent 模型提供更细致的反馈。若输出最终答案则给予满额奖励,若未能输出则进一步分析问题构造阶段保存的线索进行过程评估,并在判定当前输出中正确线索比例的基础上赋予模型连续、高区分度的部分奖励。奖励信号贯穿整个解题过程,提升学习效率和推理能力的目标得以实现。

昆仑万维发布Skywork Deep Research Agent2.0 多模态智能体性能惊艳插图10

性能得到保障的同时,效率也必须提升。昆仑万维自研的并行推理框架发挥了关键作用。此前谷歌 DeepMind 在其最新 Gemini2.5Deep Think 推理模型中通过生成多个 Agent 来并行处理任务,并摘得 IMO2025 竞赛金牌,有力验证了并行推理机制在提升复杂任务处理效率方面的有效性。而基于以下三项创新,昆仑万维在显著提升推理效率的同时大大节省了计算资源。一是并行思考模式,在每一步生成多个候选推理路径并筛选最优路径,避免推理链断裂、逻辑冲突导致的失效行为;同时通过多节点异步推理架构,有效缩短推理时间并提升计算资源使用效率。二是在多步推理规划中引入生成式评估方案,对多个候选路径进行打分和筛选,结合锦标赛排序机制确定最优推理轨迹,并利用异步推理机制降低计算负担和时间开销。三是在并行推理过程中引入熵自适应剪枝技术,动态调整路径选择,减少冗余计算,降低资源开销。环环相扣,保证系统面对复杂动态任务依然稳定高效。并行思考模式下,Skywork Deep Research 的正确率随思考时间延长持续攀升,验证了其自研系统架构在推理深度与扩展性上的巨大潜力。

在数据、算法、算力优化之外,Skywork Deep Research Agent v2 能力的跃升与多智能体演进系统的持续进化息息相关。随着 Agent 应用场景日益丰富,MCP(模型上下文协议)外接工具的作用越来越大,但工具数量和复杂度的增加需要更高效的自动化管理工具。针对此,MCP 工具自动创建技术应运而生,通过对工具定义的标准化管理和实时同步,大幅减少人为错误,提升系统响应速度和工具链的灵活性。在这一 MCP Manager Agent 的基础上,形成了一个将模型能力与工具能力结合的协同多智能体框架,不仅能高效组织多个 Agent 协作,还通过动态创建 MCP 工具来强化任务应对能力和环境适应能力。整体架构中展示了规划 Agent、深度调研 Agent、浏览器使用 Agent、数据分析 Agent 和 MCP Manager Agent。这一套系统性的升级,无疑让 Skywork Deep Research Agent V2 具备了强通用性、强适应性和强自主性,构筑起 Agent 模型强大的智能基座,在实操中释放出更强的稳定性、泛化性与创造性。

写在最后。2025年已过半,我们明显感受到:伴随 Scaling Laws 逐渐放缓的影响,国内外 AI 玩家追求单一最强通用大模型的热度有所降温,就连 OpenAI 至今最强的旗舰模型 GPT-5也被吐槽缺乏突破性体验。相反,成果开源与应用落地成为业界普遍关注的焦点。可以说,AI 行业重心的转移正在重新定义下一阶段的竞争格局。谁能在开源之上更快更好地打造贯通上下游的工具链与应用生态,同时率先将 AI 能力转化为可规模化部署的商业生产力,谁就更能在新一轮 AI 竞赛中抢占战略高地。昆仑万维为期一周的模型发布,既是其 AI 技术成果的集中亮相,也是其在多模态 AI 领域加速落地、引领行业趋势的重要信号。无论是赋能创作者进行高质量图片与视频生成、构建虚拟世界智能交互,还是 Agent 驱动的自动化任务执行、音乐创作灵感激发,昆仑万维从基座模型到多模态交互系统的全栈式布局再次展现在大众面前。这也彰显出这家 AI 公司坚定践行其「All in AGI 与 AIGC」发展战略的决心与魄力,通过打造全方位的产品矩阵,以期在全球 AI 竞争格局中稳固并扩大自身领先优势。其中,作为当前加速大模型落地的核心途径,Agent 的重要性已在业界达成共识。我们可以期待,此次的深度研究 Agent 势必会在深度任务执行、多模态协作和跨场景应用中继续拓宽昆仑万维大模型的落地边界,有望为整个 AI 行业带来更高效、更智能的解决方案。

最新快讯

2025年08月15日

00:59
微新创想8月14日讯 苹果公司尚未正式官宣iPhone 17系列发布会的具体时间,但根据多方消息透露,这场备受瞩目的发布会预计将于9月10日凌晨1点(太平洋时间)举行。遵循苹果一贯的发布会流程,该公司通常会在活动前两周通过发布邀请函来预热。令人惊喜的是,一张据称是iPhone 17系列发布会的邀请函近日在社交平台上疯传,引发了广泛关注。该邀请函明确标注了发...
00:59
微新创想8月14日讯 京东集团近日发布了2025年第二季度财务报告,数据显示公司营收达到3567亿元人民币,同比增长22.4%,展现出稳健的增长态势。然而在利润方面,归属于公司普通股股东的净利润为62亿元人民币,较2024年同期126亿元人民币出现明显下滑。若以非美国通用会计准则计算,该季度净利润为74亿元人民币,虽然较2024年同期的145亿元有所下降,但...
00:59
微新创想8月14日重磅消息,对于小鹏汽车的老朋友们来说,上一代P7的鹏翼门版车顶无疑是一道亮丽风景线,其张扬个性的设计堪称"显眼包"的典范,而当时其顶配车型售价更是达到了42.99万元。如今,全新一代P7正式开启预售,虽然整体风格焕然一新,但最引人关注的就是——它依然保留了备受期待的鹏翼门设计。官方更是直接官宣,这款个性十足的门板将成为新车的重要亮点之一。 ...
00:59
8月14日突发消息,知名《王者荣耀》职业电竞选手兮然于凌晨时分发布了一条令人心碎的微博,内容简短却字字泣血:"当这条微博发出时,我已不在人世"。这条充满绝望的留言迅速引爆网络,引发无数网友的紧急关注和自发寻人行动。就在大家为这位电竞明星的命运揪心之际,eStar电子竞技俱乐部于凌晨三点通过官方微博确认了令人痛心的消息:兮然已被找到,目前正在紧急送往医院接受救...
00:59
2025年8月15日,北京时间,全球知名对冲基金橡树资本管理公司最新披露的第二季度13F文件揭示了一系列引人注目的投资策略调整。据文件显示,橡树资本在此次季度调整中清空了包括哔哩哔哩、京东和百度在内的6支中概股,显示出对当前中概股市场的谨慎态度。与此同时,该基金新建了满帮集团的仓位,显示出对后疫情时代中国物流行业复苏的信心。此外,橡树资本还对看准科技和贝壳集...
00:59
2025年8月15日 北京讯 根据财联社最新披露的信息,全球知名主权财富基金淡马锡控股在其最新提交的13F文件中,详细披露了第二季度末的投资组合调整策略。报告显示,淡马锡在此次季度调整中,选择减持了京东、阿里巴巴和网易等中国互联网巨头,同时将一季度新纳入的亚玛芬投资组合进行了清仓操作。 值得注意的是,淡马锡在本季度末新增加了对贝壳和小鹏汽车的建仓动作,显示...
00:59
2025年8月15日,北京时间,全球能源市场迎来显著波动,WTI原油期货主力合约上演强势拉升,日内涨幅突破2%,最新报价定格在63.92美元/桶。这一涨势并非偶然,而是市场对原油供需关系预期转变的直观反应。 分析显示,近期国际能源市场正经历复杂变化,多因素共同推动了原油价格的上涨。一方面,全球经济复苏步伐加快,主要经济体制造业活动呈现扩张态势,带动能源消费需...
00:59
8月14日,南非富时/JSE非洲领先40可交易指数遭遇小幅回调,最终收跌0.30%,报收于94566.19点。值得注意的是,该指数在周三曾创下收盘和盘中历史新高,但今日的下跌使其回落至昨日创下的历史高点下方。市场分析人士指出,投资者获利了结情绪可能是导致本次指数回调的主要原因。随着市场情绪的变化,投资者开始逐步锁定前期收益,这也在一定程度上影响了指数的走势。...
00:59
2025年8月15日,北京时间,金融交易服务商Miami International Holdings Inc.(MIAX)在美国成功完成首次公开募股(IPO),首日开盘价报收31.65美元,较每股23美元的发行价上涨37.6%。这一显著涨幅不仅彰显了投资者对MIAX的浓厚兴趣,更反映出市场对其未来业务发展的高度认可和信心。此次IPO的圆满成功,标志着MIA...
00:59
近期,上海、广东、浙江、安徽等地的金融监管局与银行业协会纷纷推出新举措,针对房贷返点、车贷返佣等违规行为进行专项整治,旨在推动银行业实现差异化竞争。财联社记者深入调查发现,今年8月份,房贷返点比例普遍集中在1.3%至1.6%区间,且涉及多家国有银行及城市商业银行。这一系列行动的核心目标在于引导银行摆脱低层次的价格竞争怪圈,转向更健康、更具可持续性的发展轨道。...
00:59
2025年8月14日,房地美最新公布的数据显示,30年期抵押贷款利率已降至6.58%,这一数值创下了自去年10月以来的历史新低。此次利率的显著下调,被视为市场对当前房地产金融环境进行深度调整的重要信号,反映出信贷政策的灵活性和对市场需求的敏锐把握。业内专家普遍认为,利率的持续走低将有效降低购房者的融资成本,进而对整体购房需求形成积极的刺激作用。这一变化不仅为...

2025年08月14日

23:50
九号公司交出亮眼业绩,彰显小米生态链发展活力 近期,九号公司发布2025年半年度报告,展现出强劲的增长势头。报告期内,公司营收达到117.4亿元,同比增长76%;利润总额高达17.2亿元,同比增长136.9%。作为小米生态链的重要一员,九号在电动平衡车、电动滑板车等领域的创新成果,正逐步延伸至电动两轮车、割草机器人等新兴业务,其高歌猛进的经营态势备受业界瞩目...