DeepSeek-AI团队今日重磅发布突破性研究成果——DeepSeek-OCR,该模型创新性地采用视觉模态压缩技术,实现了对长文本上下文的精妙处理。这一技术突破不仅大幅提升了处理效率,更为OCR领域带来了全新的解决方案。
DeepSeek-OCR模型由两大核心组件构成——高效编码器DeepEncoder与先进解码器DeepSeek3B-MoE-A570M,整体参数量控制在3B级别。其中,DeepEncoder在高分辨率输入场景下展现出卓越的能效比,能够有效降低计算激活,从而精准控制视觉token的数量,为后续处理奠定坚实基础。
实验数据有力证明了DeepSeek-OCR的卓越性能。当文本token数量不超过视觉token的10倍时,该模型的OCR精度即可达到惊人的97%。即便在压缩比高达20倍的极端条件下,准确率仍能稳定维持在60%左右,展现出强大的鲁棒性。在权威的OmniDocBench测试中,DeepSeek-OCR凭借更少的视觉token消耗,成功超越了包括GOT-OCR2.0与MinerU2.0在内的多个业界领先模型,充分彰显了其技术优势。
值得注意的是,DeepSeek-OCR的训练效率同样令人瞩目。单块A100-40G显卡每日即可生成超过20万页的训练数据,这一高效的数据处理能力为模型的快速迭代和规模化应用提供了强大支撑。凭借其优异的性能表现和高效的处理能力,DeepSeek-OCR已展现出巨大的应用潜力,有望在文档识别、信息提取等领域引发新的技术浪潮。