谷歌发布FACTS基准测试:AI事实墙所有顶尖模型准确率均低于70%

谷歌的 FACTS 团队与知名数据科学平台 Kaggle 联合宣布正式推出 FACTS 基准测试套件。这一创新评估框架旨在全面衡量生成式人工智能模型在企业级任务中的事实准确性与信息真实性,填补了现有基准测试的明显短板——传统测试往往过度关注问题解决能力,而忽略了模型输出与真实世界数据的客观一致性,尤其当信息以图像或图表形式呈现时更为突出。对于法律、金融、医疗等对信息准确性有着严苛要求的行业而言,FACTS 建立了首个权威的标准化衡量体系。

核心发现:AI 仍存在显著提升空间

初步测试结果向业界发出明确警示:尽管生成式人工智能模型在智能化程度上持续进步,但距离完美表现仍存在较大差距。包括 Gemini3Pro、GPT-5 和 Claude4.5Opus 在内的所有参测模型,在各类测试问题上的综合准确率均未能突破 70% 的阈值。正如 FACTS 团队在官方新闻稿中强调的,这一数据表明未来技术发展仍具有巨大的提升潜力。对于行业技术领导者而言,这一结果再次印证了“信任但要核实”的原则,在当前阶段仍需保持高度审慎。

解构 FACTS:四大子基准测试模拟真实企业场景

FACTS 测试套件的设计超越了传统问答模式,通过四个精心设计的子基准测试,全面模拟企业生产环境中的典型故障模式:

1. 参数基准测试(内部知识):该测试专注于衡量模型仅依靠自身训练数据(内部记忆)回答问题的准确性,评估其内置知识的可靠程度。

2. 搜索基准测试(工具使用):此测试评估模型运用网络搜索工具检索和整合实时信息的能力,即 RAG(检索增强生成)能力的表现。

3. 多模态基准测试(视觉):该测试旨在检验模型准确解读图表、示意图和图像的能力,同时避免产生与事实不符的“幻觉”现象。

4. Grounding Benchmark v2(上下文):此测试严格评估模型遵循所提供的源文本或上下文信息进行回答的准确性,确保其输出与原始依据高度一致。

为防止模型过度依赖训练数据导致“污染”,谷歌已向公众开放 3,513 个测试示例,而 Kaggle 则负责维护防止训练的私有数据集,确保测试的公正性和有效性。

排行榜:Gemini3Pro 领先,多模态能力成明显短板

谷歌发布FACTS基准测试:AI事实墙所有顶尖模型准确率均低于70%插图1

初始排行榜显示,Gemini3Pro 以 68.8% 的综合 FACTS 得分位居首位,但细分数据揭示了模型在不同任务上的显著差异:

| 模型 | FACTS 评分(平均值) | 搜索(RAG 能力) | 多模态(视觉) |
|—————-|———————-|——————|—————-|
| Gemini3Pro | 68.8% | 83.8% | 46.1% |
| Gemini2.5Pro | 62.1% | 63.9% | 46.9% |
| GPT-5 | 61.8% | 77.7% | 44.1% |
| Grok | 45.3% | 75.3% | 25.7% |
| Claude4.5Opus | 51.3% | 73.2% | 39.2% |

这一数据清晰地表明,在多模态任务中,即使是表现最佳的 Gemini2.5Pro 也仅取得了 46.9% 的准确率,远低于其他测试项目。

对技术栈的启示:RAG 系统成为企业架构新标准

测试结果对 RAG(检索增强生成)系统的开发人员提供了重要启示。数据显示,模型的**“查找”能力(搜索)**显著优于其**“认知”能力(参数化)**。例如,Gemini3Pro 在搜索任务中取得 83.8% 的高分,而在参数化任务中得分仅为 76.4%。这一对比强烈表明,对于需要获取关键信息的内部知识机器人,连接外部搜索工具或向量数据库是提升准确率的唯一有效途径,能够将性能提升至可接受的生产水平。

多模态警告:低于 50% 的准确率预示重大风险

对于产品经理而言,多模态任务的低分是最值得警惕的信号。该指标普遍偏低,即使是表现最好的 Gemini2.5Pro 也仅达到 46.9% 的水平。由于这些任务涉及解读复杂图表和示意图,这表明当前多模态人工智能技术尚未成熟到可以进行无监督数据提取的程度。如果产品路线图计划依赖 AI 自动从发票或财务报表中提取数据而无需人工审核,那么系统可能将面临高达三分之一的严重错误率,带来不可接受的风险。

结论:FACTS 将成为企业 AI 采购新标杆

随着测试的深入和应用的推广,FACTS 基准测试很可能成为企业级 AI 模型采购领域的重要参考标准。技术负责人在选择 AI 模型时,应根据具体用例匹配相应的子基准测试进行评估:

– 客户支持机器人:应重点关注合规性评分,Gemini2.5Pro 在此项测试中表现更优(74.2% vs 69.0%)。
– 研究助手:搜索评分是关键指标,直接反映模型获取最新信息的能力。
– 图像分析工具:必须保持高度警惕,并假设原始模型在约三分之一的情况下可能产生错误,需加强人工审核机制。

最新快讯

2025年12月12日

22:10
2025年12月12日,备受瞩目的苹果原创电影《F1:狂飙飞车》正式登陆Apple TV平台,面向全球订阅用户免费开放观看。这部影片不仅在全球范围内斩获超过6.3亿美元的票房佳绩,更一举刷新苹果公司原创影片的最高成绩,同时跻身全球体育电影票房榜的顶尖行列,成为现象级的文化作品。 影片由好莱坞巨星布拉德·皮特倾情主演,著名导演约瑟夫·科辛斯基执导,世界冠军刘易...
22:10
2025年12月12日,备受瞩目的TGA颁奖典礼上,《生化危机9 安魂曲》震撼发布最新预告片,正式确认了玩家们深爱的经典角色里昂·S·肯尼迪将作为可操作主角强势回归。导演Akifumi Nakanishi在发布会上详细透露,里昂与新角色格蕾丝的戏份分配和玩法设计几乎达到了完美的平衡,两者将共同构建游戏的核心体验。据悉,游戏的整体结构将借鉴《生化危机:启示录》...
22:10
2025年12月12日,长安汽车正式发布重要公告,宣布其控股子公司深蓝汽车将启动新一轮增资扩股计划。根据公告内容,深蓝汽车拟通过公开挂牌与非公开协议两种方式,计划筹集资金总额约61.22亿元人民币。这一战略举措旨在进一步扩大深蓝汽车的生产经营规模,提升其市场竞争力。 在资金来源方面,长安汽车将发挥控股优势,以无形资产评估价值及自有资金形式,向深蓝汽车增资不超...
22:10
2025年12月12日,海关总署以高度的政治站位召开党委扩大会议,全面贯彻落实中央经济工作会议的核心部署与战略要求。会议以推动高质量发展为主题,明确了全国海关系统未来一年的工作方向与重点任务,彰显了海关在服务国家经济全局中的关键作用。 会议的核心要义在于推动进出口结构优化升级,通过创新驱动促进贸易发展新动能的形成。海关系统将积极构建现代化贸易新体系,以更高水...
22:10
2025年12月12日,中国民航局党组召开专题会议,深入传达学习中央经济工作会议的核心精神与战略部署。会议指出,当前民航业发展进入关键阶段,必须全面贯彻“八个坚持”重点任务要求,将发展理念与安全理念深度融合,以更高标准、更严要求坚决守住航空安全生命线。作为行业主管部门,民航局将启动“十五五”发展规划的高质量编制工作,以系统思维统筹行业长远发展与安全监管,通过...
22:10
2025年12月12日,交通运输部以高度的政治站位召开党组会和部务会,专题传达学习贯彻中央经济工作会议精神,为交通运输事业发展指明方向。会议指出,要全面贯彻落实新发展理念,统筹推进交通基础设施的规划、建设与升级改造,特别是加快构建国家综合立体交通网主骨架,确保交通网络的高效衔接与互联互通。通过加大有效投资力度,优化资源配置,为交通运输行业注入强劲动力。 会议...
21:39
2025年12月12日,中国宝安发布重要公告,宣布正式作为联合体牵头人,参与杉杉集团及其子公司宁波朋泽的实质合并重整投资人招募项目。为表达参与诚意,公司已成功提交报名材料,并主动缴纳了5000万元人民币的尽职调查保证金,目前正积极委托专业中介机构展开全面深入的尽职调查工作。此次战略性投资计划由中国宝安联合其下属核心子公司贝特瑞,并引入多位潜在战略投资人共同推...
21:39
2025年12月11日,Xbox Game Studios负责人Matt Booty在最新采访中透露,《使命召唤:黑色行动7》目前已成为Xbox平台玩家活跃度最高的游戏之一,其影响力不容小觑。Booty高度赞扬了开发团队在功能创新和系列发展方面取得的卓越成就,特别指出《使命召唤》系列通过赛季模式不断推出新内容,让游戏的生命周期远超预期。即便在当前市场情绪普遍...
21:39
2025年12月11日,备受瞩目的TCL全球技术创新大会在广州隆重举行,标志着这家科技巨头在智能化转型道路上迈出关键一步。TCL董事长李东生在会上掷地有声地宣布,公司2025年度研发投入将突破150亿元大关,这一雄心勃勃的计划将重点聚焦于人工智能技术领域,通过全面升级研发、智能制造及供应链体系,构建起更具竞争力的产业生态。 此次大会最引人注目的成果,莫过...
21:39
备受瞩目的前行者与洛天依联名款X87S三模机械键盘至臻典藏版即将震撼登场,预售将于2025年12月12日21:00准时开启。全球限量发售712套,首发惊喜价仅需399元,让无数粉丝与机械键盘爱好者翘首以盼。 这款联名典藏版键盘采用TKL精简配列设计,更符合人体工学原理,提升打字舒适度。核心亮点在于搭载了凯华特调的“天依韵律轴”,其独特的段落感与回弹力,完美还...
21:39
2025年12月12日,国际知名投资银行花旗集团正式对波音公司展开首次全面分析,并大胆给出"买入"评级,同时设定265美元的目标价。这一重要市场信号表明,花旗集团对波音未来的经营业绩和股价走势持高度乐观态度。 花旗集团的评级决策主要基于对公司基本面、行业竞争地位以及全面复苏前景的系统性评估。分析师团队深入考察了波音公司在航空制造领域的核心优势,包括其技术...
21:39
2025年12月12日,国际顶级投行花旗、瑞银与伯恩斯坦联合发布前瞻性报告,预测全球储能系统市场将迎来爆发式增长,进而引发锂市场在2026年出现供不应求的局面。这一预测基于对全球能源转型趋势的深度洞察,特别是储能技术作为新能源体系关键环节的崛起。Adamas Intelligence的最新研究进一步印证了这一观点,指出随着电动汽车渗透率趋于饱和,储能领域正逐...