DeepSeek OCR2发布实现视觉Token消耗锐减80%超越Gemini3Pro

2026-02-09 11:35:46 AI动态 2 次阅读

微新创想：中国 AI 领军企业 DeepSeek 近日发布了全新的视觉编码器 DeepSeek OCR2 在文档处理和图像识别领域实现重大突破。该模型通过模拟人类视觉的灵活扫描模式彻底颠覆了传统视觉模型平铺直叙的处理逻辑。DeepSeek 研究人员指出人类眼睛在观察物体时会根据内容进行灵活聚焦。为了实现这一特性 DeepSeek OCR2 引入了全新的架构弃用了传统的 CLIP 组件转而采用轻量级语言模型架构。

该架构利用“因果流 Token”对视觉信息进行重新排列和上下文整合使 AI 能够像人类一样根据内容的意义而非固定的网格顺序来“观察”世界。这种创新的处理方式不仅提升了理解力更极大地优化了效率。在相同的图像处理任务中 DeepSeek OCR2 仅需 256 到 1120 个 Token 相比同类系统通常消耗的 6000 个以上 Token 其视觉 Token 消耗量锐减了 80% 以上。这种极高的压缩率使得模型在处理长文档时具有巨大的成本和速度优势。

在权威的 OmniDocBench 基准测试中该模型以 91.09% 的高分刷新纪录在文档解析性能上全面超越了 Gemini3Pro。目前 DeepSeek 已将该模型的代码和权重向公众开放。研究团队认为这种架构是迈向统一多模态处理的重要一步未来有望在同一框架下实现文本、语音和图像的深度融合理解。

能效巅峰 DeepSeek OCR2 将单张图像的视觉 Token 需求大幅降低相比同类系统减少了约 80% 的资源消耗。性能超越在 OmniDocBench 测试中该模型在文档解析和识别阅读顺序方面表现卓越准确率超越了 Gemini3Pro。架构创新通过引入“因果流 Token”重组视觉信息模型实现了从机械扫描到理解内容逻辑的跨越。

2026年02月09日

12:36

DeepSeek OCR2发布实现视觉Token消耗锐减80%超越Gemini3Pro

最新快讯

2026年02月09日

字节跳动开源Protenix-v1硬刚AlphaFold3生物分子预测新标杆

小红书内测AI剪辑工具OpenStoryline对话剪视频未来或开源

Live Tinted完成B轮融资欧莱雅BOLD战略入股支持多元肤色美妆品牌

阿里千问Qwen3.5即将开放开源性能全面升级

万达电影四部大片定档2026春节档强化内容布局提升票房

我国首次实现脑机接口太空在轨验证突破神经传感技术瓶颈

苹果2026年春季密集发布iPhone 17e及新款iPad和MacBook

特斯拉FSD助力心脏病车主及时送医成功获救

昆明呈贡福朋喜来登酒店2026年2月9日盛大开业

郑州开通巴塞尔塔林跨境电商全货机航线提升欧洲物流效率

小米汽车对开门专利获授权无序开门技术提升用户体验

宁美名龙星球MX301 PRO轻量化无线游戏鼠标发布