DeepSeek视觉能力灰测引发关注,技术论文却神秘消失

微新创想:DeepSeek 在多模态能力的探索上迈出了令人瞩目的一步。在终于开始灰度测试其视觉功能后,它发布了一篇关于视觉推理技术的论文,但这篇论文很快被撤下,引发了不少猜测和讨论。4月29日,DeepSeek 研究员陈小康在 X 上发布了一条推文,配图中,DeepSeek 标志性的鲸鱼 logo 摘下眼罩,露出眼睛。这一举动仿佛在向外界宣告,视觉能力的探索已经进入新的阶段。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图1

过去,DeepSeek 被广泛认知的是其在文本、代码和推理任务上的卓越表现。然而,真实世界的问题往往不是以文字形式出现的。它们可能是一张照片、一页图表、一个网页截图,甚至是一个需要理解空间关系和视觉细节的现实场景。对于 DeepSeek 来说,视觉能力是将其推理能力从文本世界延伸到真实世界的关键一步。而这次灰测的视觉能力,让使用者们感到不同:它不像其他模型那样简单地在语言模型基础上增加多模态功能,而是以一种更原生的方式进行视觉推理。

随着用户的好奇心不断上升,DeepSeek 发布了一篇名为《Thinking with Visual Primitives》的论文。从标题可以看出,DeepSeek 对视觉能力的理解,依然聚焦于推理和思考。它试图让模型在视觉层面使用最基本的空间元素进行更准确的判断。这并不是所有主流模型厂商在多模态领域所追求的方向,但这个想法却非常独特,也带来了新的研究思路。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图2

目前,DeepSeek 的视觉模式仍在灰度测试阶段,逐步向用户开放。从 X 上已经试用该功能的用户反馈来看,DeepSeek 的视觉能力不仅仅是识别图片内容,更在于将图像信息与已有的世界知识联系起来。一位用户在 X 上表示,DeepSeek 的视觉模式拥有非常丰富的世界知识,其思考过程也让人印象深刻。他上传了一张公司附近的照片,DeepSeek 在推理过程中几乎能识别出每一栋楼,并尝试找到正确的那栋。值得注意的是,这一过程并未依赖联网搜索。

还有用户提到,DeepSeek 在网页复刻方面表现出色。这为设计师和产品经理提供了极大的便利,因为从 Figma、截图或参考网页到可点击的原型,以往需要设计师标注、开发切图、工程师实现的流程,现在可以被模型直接完成。这大大缩短了想法验证的时间,提高了效率。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图3

我亲自测试了 DeepSeek 的视觉理解能力。我上传了一张迷宫图,让它进行解答。DeepSeek 的思考过程非常严谨,它采用的是反向推理的方法,从终点出发,逐步反向追踪,直到找到起点。为了验证路径的可行性,它还用正向方式走了一遍,并再次核算,最终输出答案。整个过程中,DeepSeek 推理了四遍路径的可行性,显示出其在复杂任务上的稳定性。

陈小康在 30 号的推文中进一步解释了 DeepSeek 在视觉推理上的思路。他指出,传统的思维链(CoT)主要停留在语言空间,而视觉推理需要更多能力。通过将点和框作为认知锚点,DeepSeek 弥合了“指代鸿沟”,模拟了人类在视觉推理中常用的“指向—推理”协同机制。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图4

DeepSeek 提出了一种新的推理框架,即使用视觉基元进行思考。所谓视觉基元,可以理解为模型在图像中的“手指”。当模型需要判断一张合照中有多少人时,它会先用边界框将每个人标出,再进行统计。对于更复杂的细粒度计数任务,如“有几只熊在地面上”,模型会先找出所有熊,再逐一判断它们的位置和状态,最后得出答案。

视觉基元的引入,让模型的推理不再悬浮在语言描述中,而是被锚定在图像中的具体位置。这种方式不仅提高了推理的准确性,也让模型在处理空间关系和路径追踪时更加可靠。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图5

在空间推理任务中,DeepSeek 采用的是“定位—验证—统计”的流程。模型会先框出关键对象,再根据这些对象进行多步推理。例如,判断图中是否存在一个紫色橡胶物体,与灰色金属物体大小相同。模型会先定位灰色金属球,判断其大小;再逐一检查其他小物体,看它们的颜色、材质和大小是否匹配,最终得出结论。

在拓扑推理任务中,DeepSeek 主要使用点来表示路径。这类任务关注的是路径、连通性和结构关系,而不是物体本身。例如,判断迷宫中是否存在从起点到终点的路径,或者在交错线条中找到正确的延续路径。这类任务对多模态模型来说尤其困难,因为它们需要模型持续跟踪路径,而不是一瞥即答。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图6

报告中提到,纯语言的思维链难以准确描述不规则形状的轨迹,因此使用点作为视觉基元,特别适合处理这类问题。在迷宫导航任务中,DeepSeek 会让模型先找到起点和终点,然后像做深度优先搜索一样探索路径。模型每走到一个关键位置,就用点坐标记录下来;如果遇到死路,就回退到前一个岔路口,再尝试另一条路径。

在线条追踪任务中,模型同样会用一串点来表示其沿着哪条线走。这类任务的核心挑战是交叉点消歧:当两条线交叉时,模型必须根据局部几何连续性判断哪一条才是目标线的延续,而不是被另一条线误导。为了防止模型仅凭颜色猜测,DeepSeek 还设计了所有线条颜色和粗细都相同的样本,迫使模型真正根据曲线连续性进行追踪。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图7

尽管视觉基元带来了诸多优势,但它并不是视觉推理的终点。它的最大价值在于让模型的视觉推理变得更稳定,也更容易被验证。这会带来两个直接的好处:一是减少幻觉,模型在判断“这里有没有紫色橡胶物体”时,不再只是凭语义猜测,而是先在图中找到候选物体,再逐一排除;二是提高可解释性,例如当模型说一张图里有 25 个人时,如果它同时框出了这 25 个人,用户就能判断其是否准确。

这也是为什么 DeepSeek 的视觉模式在网页复刻、迷宫求解、复杂图像问答等场景中显得更有用。这些任务都需要模型理解页面结构、追踪路径或在多个视觉线索之间进行比对,而不仅仅是提供一句笼统的图片描述。视觉基元让模型能够稳定地“看图说话”,从而更好地应对这些挑战。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图8

另一个优势是效率。DeepSeek 并不是简单依赖大量视觉 token 来弥补视觉能力,而是通过更高效的视觉 token 压缩架构,让模型在较低的图像 token 消耗下依然保持较强的推理能力。报告中提到,对于 800×800 的输入图像,其模型在 KV cache 中只保留大约 90 个条目,却能在计数和空间推理等基准测试中取得有竞争力的表现。

DeepSeek 的目标并不是无限提高分辨率或堆叠更多图像 token,而是让模型更有效地使用视觉信息。然而,这种思路也存在一定的局限。首先,输入分辨率的限制会影响模型在细粒度场景下的表现,有时会输出不够精确的视觉基元。这意味着,如果图像中的目标非常小、细节非常密集,或者区域边界模糊,点和框的标注可能会出现偏差。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图9

其次,这种能力目前还依赖显式触发。报告中提到,当前使用视觉基元进行思考的功能需要通过明确的触发词来激活,未来希望模型能够根据具体上下文自主判断是否调用这一机制。这意味着,目前模型未必会在每个需要视觉定位的场景中自动使用这项能力。用户如果只是简单地问“这张图里有多少人”或“这条路能不能走通”,模型可能仍然使用普通语言推理,而不是主动输出点、框或路径。

最后,拓扑推理仍然是一项挑战。使用点作为视觉基元来解决复杂拓扑问题,目前还存在一定的困难。模型的跨场景泛化能力也有限,这意味着它在面对不同类型的视觉任务时,可能需要不同的处理方式。

DeepSeek视觉能力灰测引发关注,技术论文却神秘消失插图10

视觉基元让模型开始能够在图像中定位、比较和追踪,但要真正处理开放世界中的复杂视觉问题,还需要更强的感知能力、更稳定的自主调用机制,以及更好的跨场景泛化能力。在视觉理解层面,DeepSeek 给出的答案是:让图像不再只是输入材料,而是成为模型推理过程的一部分。模型不只是看见世界,而是开始学会在世界中找到锚点。

这种做法不像是一次附带的研究,更像是 DeepSeek 对视觉能力的一种全新理解。因此,这次罕见的删除论文行为也引发了诸多猜测。有人认为,这种技术对于开源模型来说“太强大”,以至于不适合公开。真相如何,或许还要等 DeepSeek 自己给出解释。

最新快讯

2026年05月07日

15:48
微新创想:腾讯混元今日发布消息,宣布其最新模型Hy3 preview自上线以来,Token调用量持续攀升,目前已达到上一代版本Hy2的10倍。这一显著增长不仅体现了Hy3 preview在性能和应用范围上的突破,也反映了用户对腾讯混元技术的广泛认可。 在具体应用场景中,Hy3 preview在代码和智能体类任务中的表现尤为突出。数据显示,其在腾讯内部的Wor...
15:48
微新创想:近日,Mininglamp 开源了两个重量级本地 AI 项目——Cider 和 Mano-P 分别针对 Mac 端侧推理加速和 GUI 智能体操作两大痛点,为用户打造一套完整的本地 AI 基础设施。这意味着 Mac 不再只是“能跑 AI”,而是真正成为高效、私有、可深度操控的 AI 工作站。 Cider: 释放 M 系列芯片潜能,LLM/VLM 本...
15:23
微新创想:2026年5月8日起 CHANNEL V音乐频道正式停止卫星信号传输 频道运营方星空传媒宣布了这一决定 主因是全球音乐电视市场剧变 新媒体冲击及卫星传输成本高企 导致频道长期亏损 停播后 全国有线电视 IPTV及直播卫星用户将无法接收其节目 这一消息引发了广泛关注 特别是在长期依赖该频道获取音乐和时尚资讯的观众群体中 CHANNEL V作为星空传媒...
15:23
微新创想:2026年2月3日 特斯拉向美国专利商标局提交两项Roadster相关商标申请 均基于“意向使用”原则 该商标申请包含一个独特的视觉标识 采用三角盾牌造型 内部嵌入大写ROADSTER字样 设计极具辨识度 底部四条垂直线分别象征速度 推进 热量与风 这一设计元素不仅体现了Roadster车型的核心性能特点 还融入了品牌对未来出行方式的愿景 该商标设...
15:23
微新创想:2026年5月,Take-Two CEO斯特劳斯・泽尔尼克证实,《生化奇兵4》预计不早于2027年发售。该作2019年立项,由Cloud Chamber开发,后因创意方向多次推倒重来、资源浪费严重而大幅延期。泽尔尼克表示,团队长期未能确立核心创作基调,导致大量投入收效甚微。 尽管开发波折,新任IP负责人罗德・弗格森(曾主导《战争机器》《暗黑破坏神》...
15:23
微新创想:2026年5月7日,中科院自动化研究所团队在狨猴大脑中识别出与人类高度同源的弓状束神经纤维束。这一发现为追溯人类语言能力的神经起源提供了关键实验证据。 研究团队利用高分辨率神经影像与示踪技术,在狨猴的额叶与颞顶叶之间定位到结构与连接模式均近似人类的弓状束。该神经纤维束在人类大脑中与语言处理密切相关,其在狨猴中的存在表明语言能力可能具有更广泛的进化基...
15:22
微新创想:2026年5月7日,数码博主@数码闲聊站曝光了一款搭载天玑9500芯片的折叠屏工程机,疑似为vivo X Fold6。这款新机在外观设计上展现出独特的风格,采用直屏形态搭配圆润的R角设计,整体线条流畅,视觉体验更加自然。后置摄像头模组采用了大圆环造型,不仅提升了拍照体验,也增强了手机的辨识度。 该设备支持侧边指纹识别,进一步提升了用户的操作便捷性与...
15:22
微新创想:2026年5月7日,索尼集团迎来创立80周年。当日,其在东京银座Ginza Sony Park推出特别展览“100.80.60.展”。展期每日11:00至19:00,免费开放。展览覆盖B2至4F共四层,通过经典产品、时代话题及文学形式回溯企业发展历程。 微新创想:此次展览不仅展示了索尼80年来的经典产品,还结合了当下热门话题,以多元方式呈现品牌的发...
15:22
微新创想:2026年5月7日,中国信托业协会发布《关于优化信托服务、促进健康可持续发展的倡议书》。该倡议书明确提出,信托行业应秉持“质价相符”的原则,确保服务质量与价格相匹配。同时,倡议要求全行业规范营销行为,切实履行消费者权益保护责任,维护市场公平竞争环境。 微新创想:在发展理念上,倡议强调要坚持长期主义,关注增量市场的发展机遇,推动信托业务向高质量方向转...
15:22
微新创想:韶音将于2026年5月13日在中国市场推出OpenDots 2白金缮“缮己新声”艺术限定礼盒。这款礼盒不仅是一件科技产品,更是一件融合艺术与工艺的收藏品。礼盒由知名珠宝品牌宝格丽的设计师Matteo Menotto亲自操刀设计,展现出独特的美学理念与精湛的工艺水准。 礼盒内包含多款精心打造的配件,每一款都承载着不同的艺术灵感。其中,白金缮配色的Op...
15:22
微新创想:苹果近日宣布将新款平价笔记本MacBook Neo的全年生产目标大幅提升至1000万台。这一决定源于市场对这款产品的巨大热情以及远超预期的需求。然而由于原库存中的A18 Pro芯片已全部售罄,苹果不得不向台积电支付更高的价格以确保新芯片的供应。此举虽然能够满足市场需求,但也带来了一些成本上的挑战。 苹果在升级芯片供应的同时,不得不对产品配置做出一些...
15:22
微新创想:2026年5月7日,丹麦马士基集团发布2026年第一季度财报。当季营收达到129.70亿美元,同比下滑2.6%。这一数据反映出当前全球海运市场面临一定的挑战。 微新创想:EBITDA为17.53亿美元,较上年同期的27.10亿美元下降35.3%。这表明集团在运营过程中遇到了较大的成本压力。同时,EBIT为3.40亿美元,同比下降72.9%。这一显著...