近日,英国政府 AI 安全研究所联合斯坦福大学、加州大学伯克利分校及牛津大学的顶尖专家团队,对全球范围内440余个用于评估人工智能模型安全性与有效性的基准测试进行了全面系统的深度研究。这项具有里程碑意义的调查发现,几乎所有测试基准都存在显著缺陷,这些缺陷不仅可能”严重削弱结果声明的科学有效性”,更有甚者,部分测试评分结果可能完全”无关紧要甚至具有误导性”。
图源备注:图片由AI生成
随着科技巨头们加速推出新一代人工智能产品,公众对AI技术的安全性及实际效能的担忧与日俱增。值得注意的是,尽管美国和英国尚未建立全国性的AI监管体系,但这些基准测试却已成为检验新型AI系统是否安全可靠、是否符合人类长远利益,以及在推理能力、数学运算和编程技能等方面实际表现的重要衡量标准。
研究首席作者、牛津互联网研究所的Andrew Bean教授指出:”当前支撑着AI发展进程的绝大多数声明,都建立在基准测试数据之上。然而由于缺乏统一的定义规范和可靠的量化方法,我们往往难以准确判断AI模型是否真正实现了技术突破,还是仅仅呈现出表面上的进步。”他特别提到,谷歌近期主动撤回其最新研发的Gemma模型,正是因为该模型存在传播关于美国参议员虚假指控的严重问题,而这些指控完全是凭空捏造的。这并非孤例,Character.ai公司也因涉及多起青少年自杀事件,近期宣布全面禁止青少年与AI聊天机器人进行开放式对话。

研究数据显示,在所有参与评估的基准中,仅有16%的测试采用了不确定性估计或统计显著性检验等科学方法来验证其准确性。更令人担忧的是,在部分针对AI特性进行评估的基准中,像”无害性”这类关键概念缺乏明确清晰的定义,导致测试结果严重偏离实际应用场景。专家团队一致呼吁,必须尽快建立全球共享的AI评估标准体系,制定行业最佳实践指南,从根本上改善当前AI评估流程的科学性与严谨性,从而全方位保障人工智能技术的安全可靠与健康发展。
划重点:🌐 研究证实,全球440余个AI测试基准几乎普遍存在缺陷,严重影响了评估结果的权威性与可靠性。🚨 谷歌Gemma模型的撤回事件,再次凸显了建立AI监管体系的紧迫性与必要性。📊 数据显示仅16%的基准测试采用科学统计方法,当前AI评估体系标准化程度严重不足,亟需全球协作改进评估方法论。
