
腾讯近日重磅发布全新开源模型——HunyuanOCR,凭借仅1B的精简参数量,在人工智能领域再创佳绩。该模型基于腾讯自主研发的混元多模态架构,已在多个行业OCR应用中展现出SOTA(最先进水平)的性能表现。腾讯团队强调,HunyuanOCR采用创新的”端到端”设计理念,通过单次前向推理即可高效获取各项功能的最优结果,极大提升了运算效率。
HunyuanOCR的架构设计独具匠心,主要由三大核心组件构成:原生分辨率视频编码器、自适应视觉适配轻量化混元语言模型。与市面上其他OCR模型不同,HunyuanOCR实现了全端到端的训练与推理流程,并借助大规模应用导向数据及在线强化学习技术,展现出卓越的推理能力。在复杂文档解析测试中,HunyuanOCR以94.1分的优异成绩超越了包括谷歌Gemini3-pro在内的多个顶尖模型,充分证明了其强大的技术实力。
在文字处理能力方面,HunyuanOCR同样表现出色,能够精准识别文档、艺术字、街景、手写、广告、票据等多种场景的文字内容。相较于其他开源及商业OCR模型,该模型在OCR综合测评中获得了高达860分的卓越成绩,成为总参数3B以下的模型中的佼佼者。更值得一提的是,HunyuanOCR支持14种语种的翻译功能,在跨语言处理领域展现出强大的应用潜力。

在复杂文档电子化处理方面,HunyuanOCR能够将扫描件拍摄图中的文本按照阅读顺序智能组织,并支持使用LaTe格式表示公式、HTML格式复杂表格等高级功能。实际应用场景丰富多样,包括但不限于语种文档解析、票据字段抽取、视频字幕识别以及拍照翻译等任务,充分展现了其广泛的适用性和巨大的应用价值。
github:https://github.com/Tencent-Hunyuan/HunyuanOCR
划重点:
🔍 HunyuanOCR模型以1B参数量,通过端到端设计实现多项SOTA成果
📄 该模型支持复杂文档解析、文字检测及识别,覆盖多种应用场景
🌐 HunyuanOCR还具备14小语种翻译能力,特别适用于拍照翻译功能
