IBM近期重磅发布了一款创新的小型视觉语言模型——Granite-Docling-258M,这款专为文档与表格处理场景打造的模型拥有2.58亿参数量,能够高效支持端到端的文件转换任务。作为一款开源模型,Granite-Docling-258M基于Apache 2.0协议公开发布,用户可便捷地在Hugging Face平台上获取和使用。
其核心技术DocTags由IBM Research团队精心研发,通过精准标记页面元素类型、位置及阅读顺序,实现了内容与版式的高效分离。这一创新技术不仅支持将文档导出为Markdown、JSON等多种格式,更在传统OCR技术基础上实现了显著突破,识别准确率大幅提升,能够完整保留表格、公式、列表等关键结构信息。
目前,Granite-Docling-258M已支持中文、阿拉伯语和日语三种语言的处理,未来IBM计划进一步拓展语言覆盖范围,并持续优化模型稳定性。此外,模型还将加强与watsonx.ai平台的兼容性,为用户带来更加流畅的跨平台体验。这一系列举措旨在推动文档处理技术的革新,为各行各业提供更智能、更高效的解决方案。
