
10月16日,百度飞桨(PaddlePaddle)团队震撼发布了全新视觉语言模型PaddleOCR-VL,迅速在全球OCR(光学字符识别)领域掀起波澜。这款以仅0.9B参数规模却能在权威评测OmniDocBench V1.5中斩获92.56分的高分模型,不仅超越了DeepSeek-OCR等主流竞品,更一举登顶全球OCR榜单,成为该领域的标杆之作。
截至10月21日,Huggingface全球模型趋势榜(Trending Models)前三甲全部被OCR模型占据:🥇PaddleOCR-VL(百度飞桨)🥈DeepSeek-OCR🥉NanonetOCR。其中,百度的PaddleOCR-VL已连续5天稳居榜首,成为当前最受瞩目的开源OCR解决方案。这款模型支持109种语言识别,能够精准解析文本、表格、公式及各类图表,更具备文档语义结构重建的强大能力。这意味着它不仅能高效”识字”,更能深度”读懂”复杂文档内容,在科研论文处理、发票识别、知识抽取等场景中展现出惊人的实用价值。

值得关注的是,DeepSeek团队在其最新论文中特别致谢PaddleOCR,并透露其训练数据标注环节部分采用了PaddleOCR技术。这一细节揭示了当前OCR领域竞争的深层逻辑:百度、DeepSeek与上海AI Lab等机构几乎同步开源OCR模型,其目的远不止于性能比拼,而是要构建大模型训练所需的数据清洗与标注基础能力。这场看似的”OCR军备竞赛”,实则是一场关于谁能更快让AI理解世界文字与图像的科技角逐,其核心价值在于推动AI认知能力的整体突破。
