腾讯发布OpenSearch-VL开源多模态搜索智能体全面解决方案

微新创想:随着多模态大语言模型(MLLMs)的飞速发展,如何让模型从“被动理解图片”进化为“主动寻找证据并推理”的智能体(Agent),已成为当前 AI 领域竞争的核心。这一转变不仅提升了模型的实用性,也推动了人工智能在现实场景中的深度应用。然而,由于高质量训练数据、自动化轨迹合成路径以及详细训练配方的缺失,顶尖的多模态搜索智能体一直难以被开源社区复现。

为了打破这一僵局,来自腾讯混元(Tencent Hunyuan)联合加州大学洛杉矶分校(UCLA)、香港中文大学等机构的研究团队正式发布了 OpenSearch-VL。这是一个完全开源的路线图,旨在通过强化学习(RL)技术打造具备前沿能力的深度搜索智能体。项目不仅提供了完整的训练框架,还为开发者提供了可复现和改进的基础。

创新数据生产线,克服“搜索捷径”研究团队指出,目前阻碍模型进化的最大瓶颈在于高质量的训练数据。为了训练出能够进行多步推理而非简单“一键识图”的模型,团队开发了一套精细的数据固化流程。该流程利用维基百科的超链接图谱进行路径采样,将复杂的实体关系转化为多跳(Multi-hop)问答。通过这种方式,模型能够更全面地理解问题,并进行更深层次的推理。

为了防止模型“偷懒”,研究人员通过模糊实体重写技术隐藏了直接答案,并引入了基于源码锚点的视觉定位技术。这种设计强迫模型必须先识别视觉线索,再结合外部工具逐步检索,从而避免了检索过程中的功能性崩坏。基于此,团队构建了包含3.6万条指令微调轨迹的 SearchVL-SFT 数据库,以及8000条用于强化学习的 SearchVL-RL 数据库。这些数据为模型的训练和优化提供了坚实的基础。

腾讯发布OpenSearch-VL开源多模态搜索智能体全面解决方案插图1

强大的工具箱:不仅仅是搜索OpenSearch-VL 并不局限于简单的文本检索。在现实场景中,用户提供的图片往往存在模糊、歪斜或分辨率低等问题,导致搜索工具失效。为此,该项目集成了一个多元化的工具环境,不仅包含网页搜索和反向图像搜索,还加入了 OCR(光学字符识别)、图像裁剪、锐化、超分辨率重建以及透视校正等功能。这意味着智能体在查询外部知识之前,会像人类一样先通过“主动感知”修复不完美的视觉输入,确保后续搜索的精准度。

“故障感知”算法:让模型从失败中学习在长路径的任务处理中,工具调用往往会产生连锁反应,一个环节的超时或错误可能导致整个任务瘫痪。传统的强化学习往往会直接丢弃这些失败的轨迹,造成训练资源的浪费。OpenSearch-VL 提出了一种名为 “多轮故障感知 GRPO” 的训练算法。该算法能够灵敏地捕捉到工具调用的“致死点”,通过掩码技术过滤掉失败后的无效信息,同时利用单边优势钳制(One-sided advantage clamping)保留故障发生前的有用逻辑。这种方式确保了模型即使在最终失败的情况下,也能学习到前期有效的搜索路径和探索策略。

实验表现比肩商业私有模型测试结果显示,OpenSearch-VL 在七项主流多模态深度搜索基准测试中表现卓越,平均性能提升超过10个百分点。在某些特定任务上,其表现已足以与目前的顶级闭源商业模型相媲美。这一成绩不仅验证了项目的有效性,也为多模态智能体的研究提供了新的方向。

目前,研究团队已计划将 OpenSearch-VL 的所有训练数据、代码及模型权重全量开源,旨在为全球开发者提供一个可复现、可改进的底层框架,推动多模态智能体研究进入“深水区”。这一举措不仅促进了技术的共享与进步,也为未来更多创新应用的开发奠定了基础。

最新快讯

2026年05月07日

15:48
微新创想:腾讯混元今日发布消息,宣布其最新模型Hy3 preview自上线以来,Token调用量持续攀升,目前已达到上一代版本Hy2的10倍。这一显著增长不仅体现了Hy3 preview在性能和应用范围上的突破,也反映了用户对腾讯混元技术的广泛认可。 在具体应用场景中,Hy3 preview在代码和智能体类任务中的表现尤为突出。数据显示,其在腾讯内部的Wor...
15:48
微新创想:近日,Mininglamp 开源了两个重量级本地 AI 项目——Cider 和 Mano-P 分别针对 Mac 端侧推理加速和 GUI 智能体操作两大痛点,为用户打造一套完整的本地 AI 基础设施。这意味着 Mac 不再只是“能跑 AI”,而是真正成为高效、私有、可深度操控的 AI 工作站。 Cider: 释放 M 系列芯片潜能,LLM/VLM 本...
15:23
微新创想:2026年5月8日起 CHANNEL V音乐频道正式停止卫星信号传输 频道运营方星空传媒宣布了这一决定 主因是全球音乐电视市场剧变 新媒体冲击及卫星传输成本高企 导致频道长期亏损 停播后 全国有线电视 IPTV及直播卫星用户将无法接收其节目 这一消息引发了广泛关注 特别是在长期依赖该频道获取音乐和时尚资讯的观众群体中 CHANNEL V作为星空传媒...
15:23
微新创想:2026年2月3日 特斯拉向美国专利商标局提交两项Roadster相关商标申请 均基于“意向使用”原则 该商标申请包含一个独特的视觉标识 采用三角盾牌造型 内部嵌入大写ROADSTER字样 设计极具辨识度 底部四条垂直线分别象征速度 推进 热量与风 这一设计元素不仅体现了Roadster车型的核心性能特点 还融入了品牌对未来出行方式的愿景 该商标设...
15:23
微新创想:2026年5月,Take-Two CEO斯特劳斯・泽尔尼克证实,《生化奇兵4》预计不早于2027年发售。该作2019年立项,由Cloud Chamber开发,后因创意方向多次推倒重来、资源浪费严重而大幅延期。泽尔尼克表示,团队长期未能确立核心创作基调,导致大量投入收效甚微。 尽管开发波折,新任IP负责人罗德・弗格森(曾主导《战争机器》《暗黑破坏神》...
15:23
微新创想:2026年5月7日,中科院自动化研究所团队在狨猴大脑中识别出与人类高度同源的弓状束神经纤维束。这一发现为追溯人类语言能力的神经起源提供了关键实验证据。 研究团队利用高分辨率神经影像与示踪技术,在狨猴的额叶与颞顶叶之间定位到结构与连接模式均近似人类的弓状束。该神经纤维束在人类大脑中与语言处理密切相关,其在狨猴中的存在表明语言能力可能具有更广泛的进化基...
15:22
微新创想:2026年5月7日,数码博主@数码闲聊站曝光了一款搭载天玑9500芯片的折叠屏工程机,疑似为vivo X Fold6。这款新机在外观设计上展现出独特的风格,采用直屏形态搭配圆润的R角设计,整体线条流畅,视觉体验更加自然。后置摄像头模组采用了大圆环造型,不仅提升了拍照体验,也增强了手机的辨识度。 该设备支持侧边指纹识别,进一步提升了用户的操作便捷性与...
15:22
微新创想:2026年5月7日,索尼集团迎来创立80周年。当日,其在东京银座Ginza Sony Park推出特别展览“100.80.60.展”。展期每日11:00至19:00,免费开放。展览覆盖B2至4F共四层,通过经典产品、时代话题及文学形式回溯企业发展历程。 微新创想:此次展览不仅展示了索尼80年来的经典产品,还结合了当下热门话题,以多元方式呈现品牌的发...
15:22
微新创想:2026年5月7日,中国信托业协会发布《关于优化信托服务、促进健康可持续发展的倡议书》。该倡议书明确提出,信托行业应秉持“质价相符”的原则,确保服务质量与价格相匹配。同时,倡议要求全行业规范营销行为,切实履行消费者权益保护责任,维护市场公平竞争环境。 微新创想:在发展理念上,倡议强调要坚持长期主义,关注增量市场的发展机遇,推动信托业务向高质量方向转...
15:22
微新创想:韶音将于2026年5月13日在中国市场推出OpenDots 2白金缮“缮己新声”艺术限定礼盒。这款礼盒不仅是一件科技产品,更是一件融合艺术与工艺的收藏品。礼盒由知名珠宝品牌宝格丽的设计师Matteo Menotto亲自操刀设计,展现出独特的美学理念与精湛的工艺水准。 礼盒内包含多款精心打造的配件,每一款都承载着不同的艺术灵感。其中,白金缮配色的Op...
15:22
微新创想:苹果近日宣布将新款平价笔记本MacBook Neo的全年生产目标大幅提升至1000万台。这一决定源于市场对这款产品的巨大热情以及远超预期的需求。然而由于原库存中的A18 Pro芯片已全部售罄,苹果不得不向台积电支付更高的价格以确保新芯片的供应。此举虽然能够满足市场需求,但也带来了一些成本上的挑战。 苹果在升级芯片供应的同时,不得不对产品配置做出一些...
15:22
微新创想:2026年5月7日,丹麦马士基集团发布2026年第一季度财报。当季营收达到129.70亿美元,同比下滑2.6%。这一数据反映出当前全球海运市场面临一定的挑战。 微新创想:EBITDA为17.53亿美元,较上年同期的27.10亿美元下降35.3%。这表明集团在运营过程中遇到了较大的成本压力。同时,EBIT为3.40亿美元,同比下降72.9%。这一显著...