
谷歌的 FACTS 团队携手数据科学平台 Kaggle 联合推出了全新的 FACTS 基准测试套件,旨在解决当前 AI 模型评估领域长期存在的痛点——缺乏统一的事实准确性衡量标准。这一创新基准测试不仅提供了一套系统化的评估体系,更针对准确性要求极高的法律、金融、医疗等关键行业量身定制,填补了专业领域 AI 评估工具的空白。
图源备注:图片由AI生成,图片授权服务商Midjourney
FACTS 基准测试将”事实性”这一核心指标划分为两大操作场景:一是”上下文事实性”,考察模型依据给定信息生成准确响应的能力;二是”世界知识事实性”,测试模型从记忆库或网络中检索信息的准确性。令人瞩目的是,包括 Google 的 Gemini3Pro、OpenAI 的 GPT-5 以及 Anthropic 的 Claude4.5Opus 在内的顶尖模型,在此次基准测试中的综合准确率均未能突破70%的门槛。
该基准测试超越了传统问答题的形式,构建了包含四个子测试的全面评估框架,这些测试精准模拟了开发者在实际生产环境中遭遇的真实失败模式。具体而言,四大测试模块分别为:参数基准(内部知识检索)、搜索基准(工具调用能力)、多模态基准(视觉信息处理)以及上下文基准(情境理解能力)。谷歌公开分享了3513个测试示例,而 Kaggle 则保留了部分私有数据作为盲测试集,以防止开发团队通过训练方式规避评估。

根据最新公布的测试结果,Google 的 Gemini3Pro 以68.8%的综合 FACTS 得分位居榜首,其后是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特别值得注意的是,在搜索基准测试中,Gemini3Pro 创下了83.8%的惊人表现,而在参数基准测试中则略微下降至76.4%。这一数据揭示了企业在构建知识检索增强生成(RAG)系统时的重要启示:将先进模型与搜索工具或向量数据库相结合,能够显著提升系统准确性。
然而,测试结果也揭示了当前 AI 技术的局限性。在多模态任务中,即使是表现最佳的 Gemini2.5Pro 也仅获得了46.9%的准确率。这一数据表明,当前多模态 AI 在处理非结构化数据提取任务时仍处于发展初期,企业在产品开发中必须保持审慎态度。
划重点:🌟 所有评估模型的整体准确率均未超过70%,显示出未来发展的巨大空间。🔍 Gemini3Pro 在搜索任务中表现突出,但参数任务的准确率仍有明显提升空间。⚠️ 当前多模态 AI 模型在数据提取方面的准确性不足,企业需谨慎使用。
