2026年2月3日,智谱科技震撼发布并正式开源其全新GLM-OCR模型,为文档解析领域带来革命性突破。该模型参数量仅为0.9B,却展现出惊人的性能,凭借vLLM、SGLang和Ollama三大主流部署框架的全面兼容性,在OmniDocBench V1.5等权威文档解析基准测试中,以高达94.6分的卓越成绩登顶SOTA(State-of-the-Art)榜单。这一成就标志着GLM-OCR在处理手写体识别、复杂表格结构、印章识别以及代码文档解析等高难度场景时,实现了前所未有的精准度与效率。
GLM-OCR模型的核心优势在于其专为高难场景深度优化,不仅具备业界领先的高精度识别能力,更以极低的延迟和极具竞争力的成本(仅为0.2元/百万Tokens)脱颖而出,为各行各业提供经济高效的文档智能解决方案。为了进一步降低使用门槛,智谱科技同步发布了配套开源SDK与完整推理工具链,用户只需一行简单命令即可快速调用模型,极大提升了开发效率与应用便捷性。
从技术层面来看,GLM-OCR模型的突破性表现源于智谱科技自主研发的CogViT视觉编码器与创新的Multi-Tokens预测损失训练策略。这一双重技术革新,成功实现了在模型参数量极小的情况下,依然保持强大性能的业界难题,为小模型在复杂任务中实现高性能提供了全新的可能。此次开源不仅展现了智谱科技在AI领域的领先实力,更为整个行业带来了宝贵的创新资源与技术启示。
