
智谱AI近日重磅宣布,其自主研发的专业级光学字符识别(OCR)模型GLM-OCR已正式发布并全面开源。这款模型凭借其惊人的0.9亿参数(0.9B)轻量级设计,却实现了性能上的跨越式突破,在众多权威基准测试中独占鳌头,旨在为全球用户提供高效、精准的复杂文档解析解决方案,彻底解决企业在处理海量信息时的真实业务痛点。

GLM-OCR的核心性能表现堪称业界里程碑。尽管其参数规模仅为0.9亿,这一轻量级的架构并未限制其卓越能力。相反,它在权威的OmniDocBench V1.5文档解析榜单上,以94.6分的超高分一举夺魁,其整体性能甚至已能与像Gemini-3-Pro这样的通用巨型大模型相媲美,展现出无与伦比的效率与准确性。无论是基础的文本识别,还是高难度的数学公式推导、错综复杂的表格解析,乃至精准的关键信息抽取(KIE),GLM-OCR均达到了业内最顶尖(SOTA)水平。
面对日常工作中形形色色的复杂文档挑战,GLM-OCR进行了针对性的专项优化,成功直击六大高难度业务场景的痛点,并展现出极致的稳定性和可靠性。对于**复杂表格**,它能够轻松应对合并单元格、多层表头等复杂布局,并直接输出规范的HTML代码,极大简化了数据处理流程。在**结构化提取**方面,无论是身份证、银行卡、发票还是各类票据,GLM-OCR都能实现智能精准识别,并以标准的JSON格式输出,为下游应用提供即用型数据。此外,它对**手写体与代码**的识别能力也令人惊叹,完美兼容教育科研领域中的复杂手写公式以及开发者日常使用的代码截图。更值得一提的是,GLM-OCR还具备对**特殊标识**,例如印章的极高识别精度,以及处理多语言混排文档的强大能力,让跨国业务和多语言信息处理变得前所未有的便捷。

在追求极致性能的同时,GLM-OCR在效率与成本控制方面也展现出无与伦比的商业竞争力。其**极速推理**能力令人印象深刻,处理PDF文档的吞吐量高达每秒1.86页,这一速度显著超越了市场上的同类模型,极大地加速了大规模文档处理的进程。同时,它还无缝支持vLLM、Ollama等主流部署方式,确保了部署的灵活性与便捷性。尤为突出的是其**极致性价比**,GLM-OCR的API服务价格低至每百万Tokens仅0.2元,相较于传统的OCR解决方案,成本足足降低了十分之九。这意味着,处理一千张A4扫描件的成本大约只需0.5元,为企业节省了巨额开支,使其成为中小企业及大型机构理想的OCR技术选择。
GLM-OCR之所以能取得如此卓越的性能,得益于其前沿的多模态架构与深度学习技术。它深度继承了智谱AI强大的GLM-V系列架构精髓,并创新性地集成了智谱自研的CogViT视觉编码器,为模型奠定了坚实的基础。通过巧妙引入**多Tokens预测损失(MTP)**机制,并结合全面的**全任务强化学习**策略,GLM-OCR在处理复杂版面时展现出显著增强的泛化能力,能够更精准地理解和识别多样化的文档内容。此外,其独创的4倍下采样策略与高效的SwiGLU机制,确保了视觉信息与语言解码器之间能够实现无缝、高效的融合,从而全面提升了模型的识别精度与鲁棒性。
目前,这款突破性的GLM-OCR模型已在两大主流开发社区GitHub和Hugging Face上同步开源,方便全球的开发者和研究者自由探索、使用及贡献。同时,智谱AI开放平台也已全面上线GLM-OCR的相关API接口及各类优惠套餐,企业用户可以根据自身需求灵活选择,立即体验这一革命性的OCR技术。
