
一位资深历史学家近日对 Gemini3Pro 的转录能力进行了前所未有的严格测试,其测试样本包括50份总计约1万词的英文学术手写文献,这些文献涵盖了从中世纪到近代的各种复杂书写风格与多样的成像条件。测试结果令人瞩目,Gemini3Pro 在字符错误率(CER)和词错误率(WER)上取得了惊人的突破,CER 仅为0.56%,WER 则低至1.22%,这一表现已接近甚至达到了专业人类转录人员的水平。

从“看不懂”到“能推理”,AI 正在跨越认知的门槛。传统的大语言模型由于其“预测式”的本质,在处理非常规拼写、长 s(ſ)、模糊标点符号以及历史度量单位等高含混场景时往往表现疲软。然而,Gemini3Pro 不仅成功识别出了未经训练的复杂手写字体表格,其表现甚至优于那些经过专业训练的学生。在严格的计分标准下,前代 Gemini-2.5-Pro 的 CER 为4%,WER 为11%;若排除标点符号与大小写,这两个指标则分别降至2%和4%。而 Gemini3Pro 直接将错误率压至原模型的1/7至1/9,提升幅度高达50%–70%。
Gemini3Pro 的能力远不止于转录。它开始展现出“理解”历史世界的能力。最令人震撼的并非其低错误率,而是其隐含推理能力的浮现。面对一处模糊的数字,Gemini3Pro 能够自主补全缺失的语境,完成跨越历史货币与重量单位的多步换算,并最终得出需要对文档世界进行抽象建模的正确结论——这些符号从未在训练中被明确定义。这不禁让人思考,统计模型内部的“自发逻辑”是否正在觉醒?作者惊叹:Gemini3Pro 似乎跨越了专家长期认为“当前架构无法逾越”的界限。

在纯统计框架内,感知、记忆与逻辑的自组织结合正在发生——这是否预示着一种新型隐性推理机制的诞生?AIbase 结语:从“读不懂古籍”到“能推理历史逻辑”,Gemini3Pro 正在重新定义 AI 在人文学科中的边界。未来,历史学家或许不再是唯一能“听懂过去声音”的人。
