
微新创想:DeepSeek近日在网页端和App端启动了识图模式的灰度测试,用户可以通过上传图片的方式,让DeepSeek进行内容理解、描述和分析。这一功能的推出,标志着DeepSeek在多模态能力上的重要进展,填补了此前在视觉理解方面的空白。
识图模式作为DeepSeek的一项独立功能,与快速模式、专家模式并列,成为用户可以直接访问的一级入口。这表明DeepSeek正在将视觉理解能力作为其核心竞争力之一,而非仅仅作为辅助功能来使用。目前,部分用户已经可以正常使用该模式,而另一部分用户虽然能看到入口,但会收到“识图模式暂不可用,请稍后再试”的提示。

从产品界面来看,用户进入识图模式后,页面会显示“使用识图模式开始对话”的提示,并在输入框旁边提供图片上传按钮。这一设计让用户能够直观地进行图片相关的操作,提升了交互的便捷性与体验感。
从实际测试的情况来看,现阶段开放的识图模式主要聚焦于图片理解能力,包括看图、读图和分析图等功能。用户可以进行视觉问答、图片内容理解以及截图分析等操作。然而,目前尚未看到图像生成、视频理解或跨模态生成等更高级的功能上线。
这意味着,DeepSeek现阶段的识图模式更接近于视觉语言模型(VLM)的范畴,主要以视觉理解为主,而非全面的多模态生成工具。未来,随着技术的不断迭代,识图模式可能会逐步扩展至更多应用场景,为用户提供更加丰富的服务。
