谷歌发布FACTS基准 AI模型准确率难破70%天花板

谷歌的 FACTS 团队携手数据科学平台 Kaggle 联合推出了全新的 FACTS 基准测试套件,旨在解决当前 AI 模型评估领域长期存在的痛点——缺乏统一的事实准确性衡量标准。这一创新基准测试不仅提供了一套系统化的评估体系,更针对准确性要求极高的法律、金融、医疗等关键行业量身定制,填补了专业领域 AI 评估工具的空白。

图源备注:图片由AI生成,图片授权服务商Midjourney

FACTS 基准测试将”事实性”这一核心指标划分为两大操作场景:一是”上下文事实性”,考察模型依据给定信息生成准确响应的能力;二是”世界知识事实性”,测试模型从记忆库或网络中检索信息的准确性。令人瞩目的是,包括 Google 的 Gemini3Pro、OpenAI 的 GPT-5 以及 Anthropic 的 Claude4.5Opus 在内的顶尖模型,在此次基准测试中的综合准确率均未能突破70%的门槛。

该基准测试超越了传统问答题的形式,构建了包含四个子测试的全面评估框架,这些测试精准模拟了开发者在实际生产环境中遭遇的真实失败模式。具体而言,四大测试模块分别为:参数基准(内部知识检索)、搜索基准(工具调用能力)、多模态基准(视觉信息处理)以及上下文基准(情境理解能力)。谷歌公开分享了3513个测试示例,而 Kaggle 则保留了部分私有数据作为盲测试集,以防止开发团队通过训练方式规避评估。

谷歌发布FACTS基准 AI模型准确率难破70%天花板插图1

根据最新公布的测试结果,Google 的 Gemini3Pro 以68.8%的综合 FACTS 得分位居榜首,其后是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特别值得注意的是,在搜索基准测试中,Gemini3Pro 创下了83.8%的惊人表现,而在参数基准测试中则略微下降至76.4%。这一数据揭示了企业在构建知识检索增强生成(RAG)系统时的重要启示:将先进模型与搜索工具或向量数据库相结合,能够显著提升系统准确性。

然而,测试结果也揭示了当前 AI 技术的局限性。在多模态任务中,即使是表现最佳的 Gemini2.5Pro 也仅获得了46.9%的准确率。这一数据表明,当前多模态 AI 在处理非结构化数据提取任务时仍处于发展初期,企业在产品开发中必须保持审慎态度。

划重点:🌟 所有评估模型的整体准确率均未超过70%,显示出未来发展的巨大空间。🔍 Gemini3Pro 在搜索任务中表现突出,但参数任务的准确率仍有明显提升空间。⚠️ 当前多模态 AI 模型在数据提取方面的准确性不足,企业需谨慎使用。

最新快讯

2025年12月13日

02:14
2025年12月13日,财联社发布最新数据,马斯克执掌的X平台在2025年前三季度营收突破20亿美元大关,较去年同期激增约18%。这一亮眼增长背后,平台第三季度却面临5.77亿美元的净亏损。据财报显示,亏损主要源于运营成本持续攀升以及用户增长策略的高额投入。面对这一财务挑战,X平台正积极推动商业化改革,力求通过优化营收结构改善整体财务表现。这一系列举措不仅关...
02:14
2025年12月13日,迪士尼集团官方宣布,《疯狂动物城2》全球票房正式突破10亿美元大关,这一辉煌成就标志着该片已成为影史上最成功的动画电影之一。自今年年初全球上映以来,《疯狂动物城2》便以惊人的速度席卷全球市场,迅速斩获了令人瞩目的票房佳绩。影片在延续前作经典设定与魅力风格的基础上,创新性地讲述了朱迪与尼克这对搭档联手破解全新神秘案件的故事,为观众带来了...
02:14
2025年12月13日,谷歌正式宣布一项重大更新,将Gemini翻译引擎深度整合至其核心文本翻译服务中,同时推出支持实时语音转语音翻译的耳机测试版产品。这一创新举措旨在全面优化多语言交互体验,实现文本与语音场景的无缝切换与高效翻译。据悉,新功能目前正处于封闭测试阶段,部分幸运用户已率先获得体验资格,标志着谷歌在跨语言沟通领域迈出了重要一步。此次整合不仅大幅提...
01:14
2025年12月13日,领先的数字化解决方案提供商首形科技(AheadForm)正式宣布成功完成新一轮战略融资。本次融资由中网投与蚂蚁集团联合领投,上海未来产业基金、东方富海等知名机构跟投,老股东招商局创投也积极参与追投,为公司的持续发展注入强劲动力。这是首形科技年内完成的第四轮融资,彰显了资本市场对其创新能力和市场前景的高度认可。 此次融资总额将重点投向三...
01:14
2025年12月13日,长安汽车正式发布重大战略举措,宣布其核心新能源品牌深蓝汽车将启动新一轮资本扩张计划。此次增资扩股将通过两种创新模式同步推进:一方面,借助重庆产业资产交易所公开挂牌平台,广泛吸纳外部战略投资者;另一方面,长安汽车将以核心无形资产与自有资金相结合的方式,非公开协议增资不超过31.22亿元。据测算,深蓝汽车此次增资扩股计划预计总募集资金规模...
01:14
2025年12月13日,贝壳集团旗下创新平台贝好家重磅发布C2M(消费者到制造者)全链解决方案,正式开启居住服务产业升级新篇章。该解决方案以数据智能为核心驱动力,贯穿住宅开发从市场定位、产品设计、建设管理到营销推广的全生命周期,通过构建消费者需求与制造环节的精准对接机制,实现"需求直达生产"的闭环模式。贝好家将携手众多开发商合作伙伴,依托强大的数字化工具体系...
01:14
2025年12月13日,神州细胞正式宣布一项重要的资本运作计划,拟与控股股东拉萨爱力克携手,对控股子公司神州细胞工程实施总额30亿元人民币的增资扩股。根据方案安排,神州细胞将投入26亿元,而拉萨爱力克则出资4亿元,双方共同助力子公司实现跨越式发展。此次增资的核心目标在于显著增强神州细胞工程的资本实力,为其未来的研发创新与产业化进程注入强劲动力。值得注意的是,...
01:14
2025年12月13日,美国食品药品监督管理局(FDA)高层正积极推动一项重大改革,计划将药品申请材料的审核周期从传统的60天大幅压缩至惊人的7天,这一举措的核心目标是加速礼来公司研发的Orforglipron药物的上市审批进程。Orforglipron在最新完成的多项临床试验中展现出卓越的减肥效果,其使患者平均减重12.4%的显著成果,已使其成为肥胖治疗领...
01:13
2025年12月11日,上海机场集团正式公示了浦东、虹桥国际机场进出境免税店项目的中标候选人名单,这一重要举措标志着上海两大核心航空枢纽的免税商业布局迈入全新发展阶段。据悉,该项目共分为三个独立标段,分别涵盖了浦东机场T1航站楼及S1卫星厅、T2航站楼及S2卫星厅的国际区域,以及虹桥机场T1航站楼的国际区域进出境免税店运营权的招标工作。经过严格的评标程序,各...
00:43
2025年12月12日,达实智能正式宣布其先进的物联网技术已成功应用于沐曦股份园区,标志着双方在智慧园区建设领域的深度合作迈入新阶段。沐曦股份作为达实智能"AI+物联网"开放实验室的首批战略合作伙伴,此次合作不仅彰显了双方在科技创新领域的协同优势,更将共同探索人工智能与园区管理的创新融合模式。据悉,双方将重点围绕园区智能化管理、资源优化配置、安全风险防控等核...
00:43
2025年12月17日起,戴尔正式宣布将全面上调其商用产品线价格,这一调整将覆盖全球范围内的商用笔记本、台式机及服务器等核心产品。此次价格调整的核心原因,源于当前内存芯片市场需求急剧上升所引发的供应链成本压力。据戴尔官方声明,由于DRAM和NAND闪存等关键组件的采购成本持续攀升,公司不得不对终端产品价格进行相应优化调整。这一举措预计将对企业客户的采购预算及...
00:43
甲骨文公司宣布,原计划于2027年投入运营的为OpenAI提供服务的超级数据中心,其启用时间将推迟至2028年。这一调整涉及Oracle为满足OpenAI庞大计算需求而精心规划的关键基础设施建设项目。尽管推迟的具体原因尚未公开披露,但外界普遍猜测可能源于项目建设进度超出预期、前沿技术的迭代升级需求,或是全球供应链面临的挑战。此次时间表的变更,无疑将对Open...