近日,英国政府 AI 安全研究所联合斯坦福大学、加州大学伯克利分校及牛津大学的顶尖专家团队,对全球范围内440余个用于评估人工智能模型安全性与有效性的基准测试进行了全面系统的深度研究。这项具有里程碑意义的调查发现,几乎所有测试基准都存在显著缺陷,这些缺陷不仅可能”严重削弱结果声明的科学有效性”,更有甚者,部分测试评分结果可能完全”无关紧要甚至具有误导性”。

图源备注:图片由AI生成

随着科技巨头们加速推出新一代人工智能产品,公众对AI技术的安全性及实际效能的担忧与日俱增。值得注意的是,尽管美国和英国尚未建立全国性的AI监管体系,但这些基准测试却已成为检验新型AI系统是否安全可靠、是否符合人类长远利益,以及在推理能力、数学运算和编程技能等方面实际表现的重要衡量标准。

研究首席作者、牛津互联网研究所的Andrew Bean教授指出:”当前支撑着AI发展进程的绝大多数声明,都建立在基准测试数据之上。然而由于缺乏统一的定义规范和可靠的量化方法,我们往往难以准确判断AI模型是否真正实现了技术突破,还是仅仅呈现出表面上的进步。”他特别提到,谷歌近期主动撤回其最新研发的Gemma模型,正是因为该模型存在传播关于美国参议员虚假指控的严重问题,而这些指控完全是凭空捏造的。这并非孤例,Character.ai公司也因涉及多起青少年自杀事件,近期宣布全面禁止青少年与AI聊天机器人进行开放式对话。

AI 测试基准缺陷严重 削弱安全有效性引发专家担忧插图

研究数据显示,在所有参与评估的基准中,仅有16%的测试采用了不确定性估计或统计显著性检验等科学方法来验证其准确性。更令人担忧的是,在部分针对AI特性进行评估的基准中,像”无害性”这类关键概念缺乏明确清晰的定义,导致测试结果严重偏离实际应用场景。专家团队一致呼吁,必须尽快建立全球共享的AI评估标准体系,制定行业最佳实践指南,从根本上改善当前AI评估流程的科学性与严谨性,从而全方位保障人工智能技术的安全可靠与健康发展。

划重点:🌐 研究证实,全球440余个AI测试基准几乎普遍存在缺陷,严重影响了评估结果的权威性与可靠性。🚨 谷歌Gemma模型的撤回事件,再次凸显了建立AI监管体系的紧迫性与必要性。📊 数据显示仅16%的基准测试采用科学统计方法,当前AI评估体系标准化程度严重不足,亟需全球协作改进评估方法论。

最新快讯

2025年11月28日

13:08
2025年11月28日,北京时间,行业消息人士遠坂小町在X平台发布惊人爆料,称AMD即将推出两款备受瞩目的新显卡——Radeon AI PRO R9700S与R9600D。尽管AMD官方尚未在官网公布任何产品信息,但细心的用户发现,这两款显卡的支持页面已经悄然上线。更有趣的是,当用户输入错误的型号名称时,系统会显示404页面不存在错误提示,这一细节有力地证实...
13:08
2025年11月27日,谷歌Pixel Watch用户群体中出现了一项令人担忧的普遍问题——步行模式下的距离记录严重失准。多位用户在社交媒体和科技论坛上纷纷发声,指出手表在记录步行数据时存在系统性偏差。Reddit平台上,一位名为almosttan的用户进行了严谨的测试,其结果显示步行模式下记录的距离仅为实际距离的四分之一左右,而切换至骑行或跑步模式后,数据...
12:38
2025年11月28日,国家能源局综合司正式发布通知,宣布全面启动“人工智能+”能源试点工作,标志着我国能源行业智能化转型进入全新阶段。此次试点聚焦于能源领域的八大核心应用场景和37项重点任务,旨在通过系统性布局推动能源产业与人工智能技术的深度融合。通知明确面向全国能源企业公开征集具有高价值的应用场景需求,并创新性地采用“揭榜挂帅”机制,鼓励人工智能技术供给...
12:38
2025年上海国际体育博览会盛大启幕,瑞士高端跑步品牌On昂跑以"空前之轻,未来之履"为核心主题,精心打造了引人注目的品牌展台。这一创新设计不仅完美融合了前沿空间美学与互动体验,更向全球观众全方位展示了On昂跑在跑步科技与时尚设计领域的最新突破与成果。展会期间,品牌特别宣布重新发售备受瞩目的高性能竞速跑鞋Cloudboom Strike LS,现场跑者不仅有...
12:38
2025年11月28日,中国科学院电工研究所传来振奋人心的消息,他们成功研制出一种具有突破性意义的大口径高场通用超导磁体。该磁体中心磁场强度达到了惊人的16.5特斯拉,内孔直径更是达到了150毫米,这一成就不仅刷新了国内同类磁体的最高磁场纪录,更标志着我国在超导技术领域迈出了坚实的一步。 为了实现这一突破,科研团队采用了多项创新技术。他们巧妙地运用了分层分级...
12:38
2026年初,备受期待的M&M'S®全新门店即将在上海迪士尼度假区迪士尼小镇盛大启幕。这家融合购物、餐饮与娱乐演出的复合型门店坐落于迪士尼小镇入口处,将成为游客体验迪士尼奇妙旅程的全新亮点。此次开业计划由玛氏中国正式宣布,不仅标志着品牌在中国市场的进一步扩张,更体现了其致力于为游客打造沉浸式互动体验的创新精神。通过将品牌元素与迪士尼经典场景深度融合,...
12:38
2025年11月28日,科技界传来振奋消息,谷歌推出的“凭据恢复API”已取得突破性进展,显著提升了安卓设备的换机体验。长期以来,安卓用户在更换手机后不得不逐一重新登录各种应用,而iOS用户却能享受无缝迁移登录状态的红利。为解决这一痛点,谷歌于2024年正式推出这项创新API,通过安全迁移旧设备的登录token至新设备,实现一键自动登录。目前,打车平台Ube...
12:38
2025年11月28日,中国领先的检测认证机构启迈QIMA正式宣布,已成功获得亚马逊官方授权,成为其玩具类目直接验证(Direct Verification)合作伙伴实验室网络的核心成员。这一重要里程碑标志着启迈QIMA在跨境电商服务领域迈出了关键一步,未来将面向全球亚马逊平台上的玩具类产品,提供全方位的合规检测与质量验证服务。 作为亚马逊官方认可的合作伙伴...
12:38
2025年11月28日,国际知名质量控制服务商QIMA正式发布关于装运前检验的权威解读。作为行业标杆企业,QIMA强调专业检验必须严格遵循ISO等国际标准体系,确保检验流程的科学性与权威性。其检验服务全面覆盖数量核查、包装检验、质量验证等核心环节,通过多维度检测保障货物符合国际贸易规范。特别值得一提的是,QIMA采用高效的检验流程,客户可在检验工作完成后当天...
12:38
2025年11月28日,备受瞩目的AI平台Model ML成功斩获7500万美元A轮融资,标志着其在金融科技领域的突破性进展。此次融资由知名投资机构FT Partners强势领投,13Books Capital、Y Combinator、QED Investors、LocalGlobe和Latitude等顶尖投资方联合参投,彰显了市场对Model ML创新能...
12:38
2025年,福建高速将斥资1.8亿元自有资金,积极参与海峡保险的年度增资扩股计划。此次增资规模宏大,海峡保险共获得10亿元资金注入,为未来的业务发展注入强劲动力。这笔资金将重点用于拓展机动车保险、企业财产险以及农业保险等核心业务领域,同时也会覆盖互联网保险等新兴业务板块,实现基础业务与扩展业务的协同增长。 在股权结构方面,福建高速此次增资后仍将持有海峡保...
12:07
2025年11月28日,去中心化稳定币借贷平台CreatorFi成功斩获200万美元战略投资,标志着其在Web3创作者经济领域的快速发展获得重要资本支持。本轮融资由业界领先的Aptos基金会与Aptos Labs联合领投,充分彰显了市场对CreatorFi创新模式的认可与期待。据悉,这笔资金将全面用于平台核心技术升级与生态建设,旨在进一步提升用户体验与市场竞...