DeepSeek于1月27日重磅推出全新一代文档识别模型——DeepSeek-OCR 2,凭借革命性技术突破为文档智能处理领域树立新标杆。此次模型的核心升级聚焦于自主研发的视觉编码器DeepEncoder V2,创新性地引入”视觉因果流”机制。该机制通过双向注意力与因果注意力协同作用,实现视觉token的动态语义重排,使模型理解文档内容的逻辑顺序更接近人类阅读习惯。
在架构设计上,DeepSeek-OCR 2延续先进的编解码体系,解码端特别采用MoE(Mixture of Experts)语言模型,大幅提升处理复杂文档的能力。在权威的OmniDocBench v1.5基准测试中,该模型整体得分高达91.09%,较上一代产品实现3.73%的显著性能提升。尤为突出的是,阅读顺序编辑距离指标降至0.057,这一突破性成果使文档内容理解准确度大幅提高。同时,生产环境下的重复率问题得到有效控制,显著降低了系统运行成本。
DeepSeek-OCR 2的技术创新具有多重实际价值。通过”视觉因果流”机制,模型能够更精准地把握文档中的逻辑关系,特别适用于需要理解长文本结构的场景。MoE语言模型的引入则大幅扩展了模型的知识覆盖范围,使其在处理专业领域文档时表现更佳。这些改进不仅提升了文档识别的准确率,也为后续的文档分类、信息提取等任务奠定了坚实基础,展现了AI技术在文档智能处理领域的巨大潜力。
