
11月25日,腾讯混元重磅发布全新开源OCR模型——HunyuanOCR,为OCR技术领域注入强劲动力。该模型参数量仅为10亿(1B),却依托混元原生多模态架构打造,在多项业界权威OCR应用榜单中斩获SOTA(最先进水平)成绩,为OCR技术落地提供轻量化高效解决方案。

HunyuanOCR采用全端到端范式设计,由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分构成。其核心优势在于”高效便捷”:体积小巧便于部署,单次前向推理即可实现功能最优输出,效率远超业界级联方案。这一创新设计使得HunyuanOCR在资源受限环境下依然能发挥卓越性能。
性能方面,HunyuanOCR表现亮眼。在复杂文档解析的OmniDocBench测评中,以94.1分超越谷歌Gemini3-Pro等领先模型;在覆盖文档、手写、街景等9大场景的自建基准测试中,文字检测和识别能力大幅领先同类开源及商业模型;OCRBench榜单上,其以1B参数斩获总参数3B以下模型SOTA,总得分860分。这一系列优异表现充分证明HunyuanOCR在OCR领域的领先地位。

在多语种翻译领域,HunyuanOCR同样表现出色。该模型支持14种高频小语种与中/英文互译,还拿下ICDAR2025端到端文档翻译比赛小模型赛道冠军。这一能力使得HunyuanOCR能够满足全球化应用需求,为跨语言场景提供高效解决方案。
应用场景上,HunyuanOCR可实现多语种复杂文档解析、票据字段JSON格式提取、视频双语字幕自动抽取等功能,已覆盖卡证处理、视频创作、跨境沟通等领域。无论是企业级应用还是个人需求,HunyuanOCR都能提供专业级解决方案。

目前,用户可通过多种渠道下载体验HunyuanOCR。支持web端、移动端链接,以及GitHub、Hugging Face开源地址。直接访问Hugging Face空间即可快速试用,开启OCR应用新篇章。具体下载地址:https://hunyuan.tencent.com/vision/zh?tabIndex=0https://github.com/Tencent-Hunyuan/HunyuanOCR
