
谷歌的 FACTS 团队与知名数据科学平台 Kaggle 联合宣布正式推出 FACTS 基准测试套件。这一创新评估框架旨在全面衡量生成式人工智能模型在企业级任务中的事实准确性与信息真实性,填补了现有基准测试的明显短板——传统测试往往过度关注问题解决能力,而忽略了模型输出与真实世界数据的客观一致性,尤其当信息以图像或图表形式呈现时更为突出。对于法律、金融、医疗等对信息准确性有着严苛要求的行业而言,FACTS 建立了首个权威的标准化衡量体系。
核心发现:AI 仍存在显著提升空间
初步测试结果向业界发出明确警示:尽管生成式人工智能模型在智能化程度上持续进步,但距离完美表现仍存在较大差距。包括 Gemini3Pro、GPT-5 和 Claude4.5Opus 在内的所有参测模型,在各类测试问题上的综合准确率均未能突破 70% 的阈值。正如 FACTS 团队在官方新闻稿中强调的,这一数据表明未来技术发展仍具有巨大的提升潜力。对于行业技术领导者而言,这一结果再次印证了“信任但要核实”的原则,在当前阶段仍需保持高度审慎。
解构 FACTS:四大子基准测试模拟真实企业场景
FACTS 测试套件的设计超越了传统问答模式,通过四个精心设计的子基准测试,全面模拟企业生产环境中的典型故障模式:
1. 参数基准测试(内部知识):该测试专注于衡量模型仅依靠自身训练数据(内部记忆)回答问题的准确性,评估其内置知识的可靠程度。
2. 搜索基准测试(工具使用):此测试评估模型运用网络搜索工具检索和整合实时信息的能力,即 RAG(检索增强生成)能力的表现。
3. 多模态基准测试(视觉):该测试旨在检验模型准确解读图表、示意图和图像的能力,同时避免产生与事实不符的“幻觉”现象。
4. Grounding Benchmark v2(上下文):此测试严格评估模型遵循所提供的源文本或上下文信息进行回答的准确性,确保其输出与原始依据高度一致。
为防止模型过度依赖训练数据导致“污染”,谷歌已向公众开放 3,513 个测试示例,而 Kaggle 则负责维护防止训练的私有数据集,确保测试的公正性和有效性。
排行榜:Gemini3Pro 领先,多模态能力成明显短板

初始排行榜显示,Gemini3Pro 以 68.8% 的综合 FACTS 得分位居首位,但细分数据揭示了模型在不同任务上的显著差异:
| 模型 | FACTS 评分(平均值) | 搜索(RAG 能力) | 多模态(视觉) |
|—————-|———————-|——————|—————-|
| Gemini3Pro | 68.8% | 83.8% | 46.1% |
| Gemini2.5Pro | 62.1% | 63.9% | 46.9% |
| GPT-5 | 61.8% | 77.7% | 44.1% |
| Grok | 45.3% | 75.3% | 25.7% |
| Claude4.5Opus | 51.3% | 73.2% | 39.2% |
这一数据清晰地表明,在多模态任务中,即使是表现最佳的 Gemini2.5Pro 也仅取得了 46.9% 的准确率,远低于其他测试项目。
对技术栈的启示:RAG 系统成为企业架构新标准
测试结果对 RAG(检索增强生成)系统的开发人员提供了重要启示。数据显示,模型的**“查找”能力(搜索)**显著优于其**“认知”能力(参数化)**。例如,Gemini3Pro 在搜索任务中取得 83.8% 的高分,而在参数化任务中得分仅为 76.4%。这一对比强烈表明,对于需要获取关键信息的内部知识机器人,连接外部搜索工具或向量数据库是提升准确率的唯一有效途径,能够将性能提升至可接受的生产水平。
多模态警告:低于 50% 的准确率预示重大风险
对于产品经理而言,多模态任务的低分是最值得警惕的信号。该指标普遍偏低,即使是表现最好的 Gemini2.5Pro 也仅达到 46.9% 的水平。由于这些任务涉及解读复杂图表和示意图,这表明当前多模态人工智能技术尚未成熟到可以进行无监督数据提取的程度。如果产品路线图计划依赖 AI 自动从发票或财务报表中提取数据而无需人工审核,那么系统可能将面临高达三分之一的严重错误率,带来不可接受的风险。
结论:FACTS 将成为企业 AI 采购新标杆
随着测试的深入和应用的推广,FACTS 基准测试很可能成为企业级 AI 模型采购领域的重要参考标准。技术负责人在选择 AI 模型时,应根据具体用例匹配相应的子基准测试进行评估:
– 客户支持机器人:应重点关注合规性评分,Gemini2.5Pro 在此项测试中表现更优(74.2% vs 69.0%)。
– 研究助手:搜索评分是关键指标,直接反映模型获取最新信息的能力。
– 图像分析工具:必须保持高度警惕,并假设原始模型在约三分之一的情况下可能产生错误,需加强人工审核机制。
