DeepSeek-OCR 3B模型发布：高效文档解析新突破

2025-10-21 09:51:50 AI动态 28 次阅读

DeepSeek-OCR：开启文档智能解析新纪元

近日，领先的AI技术公司DeepSeek重磅推出了一款创新的光学字符识别（OCR）模型——DeepSeek-OCR。这款端到端的视觉语言模型（VLM）以突破性的技术，将长篇文档高效压缩为一组精简的视觉标记，再通过强大的语言模型进行解码，实现了前所未有的文档解析效率。研究团队在权威的Fox基准测试中取得了令人瞩目的97%解码精度，更令人惊叹的是，即便在文本标记数与视觉标记数比例高达20倍的极端压缩条件下，模型依然展现出卓越的性能。在OmniDocBench基准测试中，DeepSeek-OCR同样表现亮眼，其使用的视觉标记数量远低于传统模型，为文档处理领域树立了新的标杆。

DeepSeek-OCR的架构设计堪称精妙，主要由两大核心组件构成：高分辨率输入的视觉编码器DeepEncoder和名为DeepSeek3B-MoE-A570M的专家混合解码器。DeepEncoder采用基于SAM的局部感知窗口注意机制和卷积压缩算法，能够智能控制高分辨率下的激活内存，显著减少输出标记数量，在保证精度的同时实现高效处理。解码器则是一个拥有30亿参数的先进模型，每个标记可激活约5.7亿个活跃参数，确保解码过程的准确性和流畅性。

该模型提供了丰富的使用模式选择，包括Tiny、Small、Base和Large四种分辨率模式，分别对应不同的视觉标记数量和解析需求。特别设计的动态模式Gundam和Gundam-Master能够根据页面复杂度智能调整标记预算，为不同场景提供最优解决方案。在训练方面，DeepSeek团队采用了创新的分阶段训练流程：首先对DeepEncoder进行下一标记预测的专项训练，然后在多节点环境下进行全系统协同训练，最终实现了每天处理超过20万页文档的惊人效率。

对于实际应用场景，DeepSeek团队给出了专业建议：建议用户从Small模式开始体验，若页面包含密集小字体或需要高标记数量处理时，可切换至Gundam模式获得最佳效果。DeepSeek-OCR的问世，不仅标志着文档人工智能领域迈出了重要一步，更展现了AI技术在文档处理方面的无限潜力。其卓越的高效性和灵活性，使其能够从容应对各种复杂文档的解析需求，为各行各业带来革命性的文档处理体验。

想要深入了解这项突破性技术？请访问官方论文：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf 或在Hugging Face平台探索：https://huggingface.co/deepseek-ai/DeepSeek-OCR

划重点：
🌟 DeepSeek-OCR是DeepSeek最新发布的3B规模视觉语言模型，集成了高效的OCR技术和文档解析能力
📊 在Fox基准测试中达成97%解码精度，能在极大幅压缩下依然保持优异性能
🔧 DeepEncoder支持多种分辨率模式，可根据文档复杂度灵活调整处理策略