谷歌发布FACTS基准 AI模型准确率难破70%天花板

谷歌的 FACTS 团队携手数据科学平台 Kaggle 联合推出了全新的 FACTS 基准测试套件,旨在解决当前 AI 模型评估领域长期存在的痛点——缺乏统一的事实准确性衡量标准。这一创新基准测试不仅提供了一套系统化的评估体系,更针对准确性要求极高的法律、金融、医疗等关键行业量身定制,填补了专业领域 AI 评估工具的空白。

图源备注:图片由AI生成,图片授权服务商Midjourney

FACTS 基准测试将”事实性”这一核心指标划分为两大操作场景:一是”上下文事实性”,考察模型依据给定信息生成准确响应的能力;二是”世界知识事实性”,测试模型从记忆库或网络中检索信息的准确性。令人瞩目的是,包括 Google 的 Gemini3Pro、OpenAI 的 GPT-5 以及 Anthropic 的 Claude4.5Opus 在内的顶尖模型,在此次基准测试中的综合准确率均未能突破70%的门槛。

该基准测试超越了传统问答题的形式,构建了包含四个子测试的全面评估框架,这些测试精准模拟了开发者在实际生产环境中遭遇的真实失败模式。具体而言,四大测试模块分别为:参数基准(内部知识检索)、搜索基准(工具调用能力)、多模态基准(视觉信息处理)以及上下文基准(情境理解能力)。谷歌公开分享了3513个测试示例,而 Kaggle 则保留了部分私有数据作为盲测试集,以防止开发团队通过训练方式规避评估。

谷歌发布FACTS基准 AI模型准确率难破70%天花板插图1

根据最新公布的测试结果,Google 的 Gemini3Pro 以68.8%的综合 FACTS 得分位居榜首,其后是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特别值得注意的是,在搜索基准测试中,Gemini3Pro 创下了83.8%的惊人表现,而在参数基准测试中则略微下降至76.4%。这一数据揭示了企业在构建知识检索增强生成(RAG)系统时的重要启示:将先进模型与搜索工具或向量数据库相结合,能够显著提升系统准确性。

然而,测试结果也揭示了当前 AI 技术的局限性。在多模态任务中,即使是表现最佳的 Gemini2.5Pro 也仅获得了46.9%的准确率。这一数据表明,当前多模态 AI 在处理非结构化数据提取任务时仍处于发展初期,企业在产品开发中必须保持审慎态度。

划重点:🌟 所有评估模型的整体准确率均未超过70%,显示出未来发展的巨大空间。🔍 Gemini3Pro 在搜索任务中表现突出,但参数任务的准确率仍有明显提升空间。⚠️ 当前多模态 AI 模型在数据提取方面的准确性不足,企业需谨慎使用。

最新快讯

2025年12月13日

08:18
2025年12月12日,在The Verge的深度采访中,Epic Games首席执行官蒂姆·斯威尼明确表达了其对苹果公司iOS应用外链内购抽成政策的强烈反对立场。尽管美国联邦上诉法院近期作出裁决,认定苹果有权就此类交易收取合理费用,并撤销了下级法院"永久禁止收费"的判决,但斯威尼的立场依然坚定。他仅表示愿意支付与游戏审核流程直接相关的固定费用,并尖锐指出该...
08:18
2025年12月13日,全球知名的加密货币公司Tether Holdings SA正式向尤文图斯足球俱乐部发起全面收购要约,目标直指剩余股份,意图实现对该俱乐部的完全控股。这一突如其来的收购行动迅速引发市场关注,也打破了意大利足球界原有的格局。据悉,尤文图斯目前由意大利传奇汽车家族Agnelli家族控股,该家族作为俱乐部历史上最稳定的股东力量,长期以来对尤文...
08:18
2025年12月13日,丰田汽车美国分公司正式宣布对氢能基础设施领军企业FirstElement Fuel公司完成战略投资。此次投资活动在美国加利福尼亚州核心区域展开,标志着丰田在北美氢能战略布局迈出关键一步。作为全球汽车行业的领军者,丰田汽车北美公司此次投资旨在强力推动当地清洁氢能燃料网络的建设进程,加速其商业化运营步伐。FirstElement Fuel...
08:18
12月12日深夜22时22分,新疆和田地区皮山县突发3.9级地震,震源深度仅为16公里,显示出较为浅层的地质活动特征。根据地震监测数据,震中精确坐标位于北纬37.71度、东经77.85度,这一区域属于昆仑山脉东段构造带,地质构造较为复杂。值得庆幸的是,截至目前,当地相关部门尚未收到任何人员伤亡和财产损失的报告,这无疑为此次地震增添了一抹幸运的色彩。 目前,地...
08:18
中央气象台于12月13日06时继续发布寒潮蓝色预警,提醒公众密切关注天气变化。受强冷空气影响,预计从13日08时至14日08时,我国多个地区将迎来明显降温。江淮地区、江南中东部和南部、西南地区东南部以及华南大部等地气温将普遍下降6至8摄氏度,而安徽南部、江西东部、浙江西部和福建西部等局部地区降温幅度或将达到10摄氏度,需特别警惕。 14日早晨,气温的低迷程度...
08:18
2025年12月12日,苹果公司正式向全球用户推送了全新的tvOS 26.2系统更新,此次升级专为Apple TV 4K及HD(第四代)设备量身打造。值得注意的是,本次更新周期较上一版本仅相隔约一个月,充分展现了苹果在软件迭代方面的快速响应能力。 本次tvOS 26.2系统最引人注目的创新在于新增了无需绑定Apple ID即可创建个人资料的功能。这一贴心设计...
08:18
2025年12月13日,苹果公司正式向部分旧款iPhone及iPad用户推送了iOS/iPadOS 18.7.3系统更新。与此同时,macOS Sequoia 15.7.3和macOS Sonoma 14.8.3也同步发布了相应版本。作为全球领先的科技企业,苹果此次更新着重强调了对系统安全性的重要修复,强烈建议所有符合条件的用户尽快完成升级操作。 此次iOS...
07:47
2025年12月13日,苹果正式发布备受期待的iOS 26.2系统更新,这一版本不仅进一步巩固了其标志性的"液态玻璃"设计语言,更在多个核心功能上实现了突破性升级,为用户带来前所未有的智能体验。 此次更新最引人注目的莫过于锁屏时钟透明度调节功能的加入。通过这一创新设计,用户可以根据个人喜好和场景需求,自由调整时钟显示的透明度,让时间信息在保持清晰可见的同时,...
07:17
华硕于12月12日在YouTube平台发布了一则令人期待的预告视频,正式宣布了新一代Zenbook DUO双屏笔记本电脑的问世。这款创新产品凭借其独特的双屏设计、坚固耐用的铰链结构以及巧妙的内置双电池配置,再次展现了华硕在笔记本电脑领域的领先技术。双电池分别位于机身上下部分,确保了更持久的使用时间和更稳定的性能输出。此外,新机还配备了重新设计的可拆卸键盘和更...
07:17
苹果公司今日正式推出备受期待的macOS 26.2系统更新,这一快速迭代版本距离上一代macOS仅过去了短短39天,彰显了苹果在软件开发领域的惊人效率。新系统最引人注目的创新在于引入了革命性的雷雳5集群功能,该功能能够实现多台Mac设备之间的无缝互联,通过共享算力与内存资源,大幅提升AI运算性能,为专业用户和开发者带来前所未有的计算能力。无论是进行复杂的机器...
03:15
2025年12月13日,备受瞩目的iOS/iPadOS 16.2正式版(内部版本号为23C55)终于向全球iPhone和iPad用户全面推送。此次更新距离上一版本iOS/iPadOS 16.1的发布仅过去了短短39天,展现了苹果公司高效敏捷的迭代能力。值得注意的是,由于不同地区服务器缓存机制存在差异,部分用户在升级过程中可能会遇到最长半小时的延迟现象,建议选...
03:15
2025年12月13日,苹果公司正式向全球Mac用户推送了期待已久的macOS 26.2更新,其内部版本号为25C56。此次升级距离上一版本发布仅间隔39天,展现了苹果公司高效迭代的技术实力。根据官方安排,该更新已通过遍布全球的服务器节点分批次推送给用户,但由于部分地区的缓存机制,少数用户可能需要等待半小时左右才能完成下载。 作为正式版本发布,macOS 2...