谷歌发布FACTS基准 AI模型准确率难破70%天花板

2025-12-11 12:02:52 AI动态 3 次阅读

谷歌的 FACTS 团队携手数据科学平台 Kaggle 联合推出了全新的 FACTS 基准测试套件，旨在解决当前 AI 模型评估领域长期存在的痛点——缺乏统一的事实准确性衡量标准。这一创新基准测试不仅提供了一套系统化的评估体系，更针对准确性要求极高的法律、金融、医疗等关键行业量身定制，填补了专业领域 AI 评估工具的空白。

图源备注：图片由AI生成，图片授权服务商Midjourney

FACTS 基准测试将”事实性”这一核心指标划分为两大操作场景：一是”上下文事实性”，考察模型依据给定信息生成准确响应的能力；二是”世界知识事实性”，测试模型从记忆库或网络中检索信息的准确性。令人瞩目的是，包括 Google 的 Gemini3Pro、OpenAI 的 GPT-5 以及 Anthropic 的 Claude4.5Opus 在内的顶尖模型，在此次基准测试中的综合准确率均未能突破70%的门槛。

该基准测试超越了传统问答题的形式，构建了包含四个子测试的全面评估框架，这些测试精准模拟了开发者在实际生产环境中遭遇的真实失败模式。具体而言，四大测试模块分别为：参数基准（内部知识检索）、搜索基准（工具调用能力）、多模态基准（视觉信息处理）以及上下文基准（情境理解能力）。谷歌公开分享了3513个测试示例，而 Kaggle 则保留了部分私有数据作为盲测试集，以防止开发团队通过训练方式规避评估。

根据最新公布的测试结果，Google 的 Gemini3Pro 以68.8%的综合 FACTS 得分位居榜首，其后是 Gemini2.5Pro（62.1%）和 OpenAI 的 GPT-5（61.8%）。特别值得注意的是，在搜索基准测试中，Gemini3Pro 创下了83.8%的惊人表现，而在参数基准测试中则略微下降至76.4%。这一数据揭示了企业在构建知识检索增强生成(RAG)系统时的重要启示：将先进模型与搜索工具或向量数据库相结合，能够显著提升系统准确性。

然而，测试结果也揭示了当前 AI 技术的局限性。在多模态任务中，即使是表现最佳的 Gemini2.5Pro 也仅获得了46.9%的准确率。这一数据表明，当前多模态 AI 在处理非结构化数据提取任务时仍处于发展初期，企业在产品开发中必须保持审慎态度。

划重点:🌟 所有评估模型的整体准确率均未超过70%，显示出未来发展的巨大空间。🔍 Gemini3Pro 在搜索任务中表现突出，但参数任务的准确率仍有明显提升空间。⚠️ 当前多模态 AI 模型在数据提取方面的准确性不足，企业需谨慎使用。

2025年12月13日

02:14

谷歌发布FACTS基准 AI模型准确率难破70%天花板

最新快讯

2025年12月13日

X平台前九个月营收超20亿美元同比增长18%

《疯狂动物城2》票房破10亿成年度最卖座动画

谷歌Gemini翻译功能上线实时耳机翻译测试版体验

首形科技完成新一轮融资联合领投拓展产品矩阵

深蓝汽车增资61.22亿推动新能源布局发展

贝壳贝好家发布C2M全链解决方案打造数据驱动好房子

神州细胞拟联合控股股东增资30亿助推子公司发展

FDA拟7天审批礼来减肥新药或2026年3月获批

上海两大机场免税店项目中标公示 2025年12月11日公布结果

达实智能携手沐曦股份共建智慧园区AI物联网赋能

戴尔12月17日上调商用产品价格原因解析

甲骨文部分AI数据中心推迟至2028年投产影响OpenAI算力扩展