百度PaddleOCR-VL登顶全球OCR榜领跑Huggingface趋势榜

2025-10-24 14:06:26 AI动态 27 次阅读

10月16日，百度飞桨（PaddlePaddle）团队震撼发布了全新视觉语言模型PaddleOCR-VL，迅速在全球OCR（光学字符识别）领域掀起波澜。这款以仅0.9B参数规模却能在权威评测OmniDocBench V1.5中斩获92.56分的高分模型，不仅超越了DeepSeek-OCR等主流竞品，更一举登顶全球OCR榜单，成为该领域的标杆之作。

截至10月21日，Huggingface全球模型趋势榜（Trending Models）前三甲全部被OCR模型占据：🥇PaddleOCR-VL（百度飞桨）🥈DeepSeek-OCR🥉NanonetOCR。其中，百度的PaddleOCR-VL已连续5天稳居榜首，成为当前最受瞩目的开源OCR解决方案。这款模型支持109种语言识别，能够精准解析文本、表格、公式及各类图表，更具备文档语义结构重建的强大能力。这意味着它不仅能高效”识字”，更能深度”读懂”复杂文档内容，在科研论文处理、发票识别、知识抽取等场景中展现出惊人的实用价值。

值得关注的是，DeepSeek团队在其最新论文中特别致谢PaddleOCR，并透露其训练数据标注环节部分采用了PaddleOCR技术。这一细节揭示了当前OCR领域竞争的深层逻辑：百度、DeepSeek与上海AI Lab等机构几乎同步开源OCR模型，其目的远不止于性能比拼，而是要构建大模型训练所需的数据清洗与标注基础能力。这场看似的”OCR军备竞赛”，实则是一场关于谁能更快让AI理解世界文字与图像的科技角逐，其核心价值在于推动AI认知能力的整体突破。