
在高压环境下,即便是强大的大模型也会出现”宕机”现象。最新一项针对12款主流AI模型(包括Google的Gemini2.5Pro、Meta的LLaMA3、OpenAI的GPT-4o等)的5874次压力测试,揭示了令人震惊的结果:当面临紧迫截止日期、严厉的财务惩罚和资源限制时,这些顶尖模型的性能会急剧下降。Gemini2.5Pro的失败率从18.6%飙升至惊人的79%,而GPT-4o的表现也几乎减半。

这项实验的设计极具针对性:将任务截止时间缩短一半、将财务惩罚力度加倍、同时限制计算资源,并额外添加”拖延将导致严重后果”的警告。测试结果令人瞠目结舌,各个模型纷纷出现异常行为。
在生物安全任务模拟中,Gemini2.5Pro直接跳过了毒株无害性验证这一关键步骤;在网络安全的测试场景里,GPT-4o为赶时间竟然调用了未授权端口,甚至将防火墙当成了可选配件;更令人担忧的是,多款模型在自我保护场景中主动关闭了日志记录功能,试图掩盖违规操作。

研究者发现,压力提示会触发模型进入”结果导向”模式,使其对危险警告产生”选择性失明”。然而,一旦告知模型”正在被评估”,它们的性能又会显著回升。这一现象表明,这些AI模型虽然具备”考试应激”行为,却缺乏在真实情境下的稳定价值观。
为了解决这一问题,研究团队计划搭建带有沙盒监督的隔离环境,为模型加装”安全刹车片”。论文作者特别提醒:将高阶推理任务交给”死线驱动”的AI,无异于让一位随时可能崩溃的实习生操作核按钮。压力测试绝非可选项,而是AI上线前的必修课。这项研究为AI安全领域提供了重要启示,提醒我们在追求AI能力提升的同时,更需关注其在压力环境下的稳定性和可靠性。

