近日 IBM 隆重推出了一款创新性的轻量级视觉语言 AI 模型——Granite-Docling-258M,专为高效文档转换而生。这款模型凭借其卓越的多语言处理能力,全面支持中文、阿拉伯语和日语等多种语言,致力于革新文档处理领域的效率与准确性。Granite-Docling-258M 拥有 2.58 亿参数量,是专为文档与表格处理深度优化的先进模型。相较于传统 OCR 软件,它在识别准确度上实现了显著突破,不仅能够完整保留原始文档的版面布局,还能精准识别表格、数学公式、列表及代码块等多种复杂元素。
这一突破性技术的核心在于 IBM Research 研发的 DocTags 通用文件结构标记语言。DocTags 作为一套创新的文件结构描述系统,能够以极高的精度标注页面元素的类型、位置及阅读顺序,为文档解析提供了强大的语义支持。Granite-Docling-258M 在文档转换过程中,首先通过 DocTags 精准识别文档中的各类元素,随后执行 OCR 识别,这种双阶段处理机制大幅提升了内容提取与输出的效率及准确性。转换完成后,用户可根据需求将内容导出为 Markdown、JSON、HTML 等多种格式,实现灵活应用。
IBM 还计划将 DocTags 词汇表整合进 Granite 的分词器与训练流程,通过持续优化进一步提升模型性能。目前虽然 Granite-Docling-258M 尚未达到企业级应用标准,但 IBM 承诺将持续扩展语言覆盖范围,增强模型可靠性。未来,IBM 将着力提升 DocTags 与 IBM watsonx.ai 模型的兼容性,推动技术全面落地。这款新模型的问世不仅为文档处理领域提供了创新的技术选择,更为各行各业效率提升注入了强劲动力。
huggingface:https://huggingface.co/ibm-granite/granite-docling-258M
划重点:
📄 **轻量级模型**: IBM 发布 Granite-Docling-258M,专为文件转换设计。
🔍 **高准确度**: 该模型在识别准确度上优于传统 OCR 软件,支持多种文档元素。
🌍 **多语言支持**: Granite-Docling-258M 目前支持中文、阿拉伯语和日语,未来将扩展更多语言。