腾讯混元开源1B参数HunyuanOCR模型多场景赋能OCR应用

2025-11-25 15:04:35 AI动态 1 次阅读

11月25日，腾讯混元重磅发布全新开源OCR模型——HunyuanOCR，为OCR技术领域注入强劲动力。该模型参数量仅为10亿（1B），却依托混元原生多模态架构打造，在多项业界权威OCR应用榜单中斩获SOTA（最先进水平）成绩，为OCR技术落地提供轻量化高效解决方案。

HunyuanOCR采用全端到端范式设计，由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分构成。其核心优势在于”高效便捷”:体积小巧便于部署，单次前向推理即可实现功能最优输出，效率远超业界级联方案。这一创新设计使得HunyuanOCR在资源受限环境下依然能发挥卓越性能。

性能方面，HunyuanOCR表现亮眼。在复杂文档解析的OmniDocBench测评中，以94.1分超越谷歌Gemini3-Pro等领先模型；在覆盖文档、手写、街景等9大场景的自建基准测试中，文字检测和识别能力大幅领先同类开源及商业模型；OCRBench榜单上，其以1B参数斩获总参数3B以下模型SOTA，总得分860分。这一系列优异表现充分证明HunyuanOCR在OCR领域的领先地位。

在多语种翻译领域，HunyuanOCR同样表现出色。该模型支持14种高频小语种与中/英文互译，还拿下ICDAR2025端到端文档翻译比赛小模型赛道冠军。这一能力使得HunyuanOCR能够满足全球化应用需求，为跨语言场景提供高效解决方案。

应用场景上，HunyuanOCR可实现多语种复杂文档解析、票据字段JSON格式提取、视频双语字幕自动抽取等功能，已覆盖卡证处理、视频创作、跨境沟通等领域。无论是企业级应用还是个人需求，HunyuanOCR都能提供专业级解决方案。

目前，用户可通过多种渠道下载体验HunyuanOCR。支持web端、移动端链接，以及GitHub、Hugging Face开源地址。直接访问Hugging Face空间即可快速试用，开启OCR应用新篇章。具体下载地址：https://hunyuan.tencent.com/vision/zh?tabIndex=0https://github.com/Tencent-Hunyuan/HunyuanOCR