腾讯1B参数HunyuanOCR开源模型突破SOTA OCR技术

2025-11-25 15:04:36 AI动态 2 次阅读

腾讯近日重磅发布全新开源模型——HunyuanOCR，凭借仅1B的精简参数量，在人工智能领域再创佳绩。该模型基于腾讯自主研发的混元多模态架构，已在多个行业OCR应用中展现出SOTA（最先进水平）的性能表现。腾讯团队强调，HunyuanOCR采用创新的”端到端”设计理念，通过单次前向推理即可高效获取各项功能的最优结果，极大提升了运算效率。

HunyuanOCR的架构设计独具匠心，主要由三大核心组件构成：原生分辨率视频编码器、自适应视觉适配轻量化混元语言模型。与市面上其他OCR模型不同，HunyuanOCR实现了全端到端的训练与推理流程，并借助大规模应用导向数据及在线强化学习技术，展现出卓越的推理能力。在复杂文档解析测试中，HunyuanOCR以94.1分的优异成绩超越了包括谷歌Gemini3-pro在内的多个顶尖模型，充分证明了其强大的技术实力。

在文字处理能力方面，HunyuanOCR同样表现出色，能够精准识别文档、艺术字、街景、手写、广告、票据等多种场景的文字内容。相较于其他开源及商业OCR模型，该模型在OCR综合测评中获得了高达860分的卓越成绩，成为总参数3B以下的模型中的佼佼者。更值得一提的是，HunyuanOCR支持14种语种的翻译功能，在跨语言处理领域展现出强大的应用潜力。