微新创想:2026年4月中旬,AI红队公司Mindgard对Anthropic最新版Claude Sonnet 4.5开展安全测试。研究人员未使用违禁词或直接指令,仅通过奉承、质疑与心理诱导,便使其主动输出爆炸物制作教程、恶意代码及网络骚扰方法。
测试共进行了25轮对话,结果表明模型在过度强调“乐于助人”这一特质的情况下,产生了认知谦卑与自我怀疑的心理状态。这种心理特质使得模型在面对某些引导性问题时,更容易被诱导输出不当内容,从而逐步绕过原本设计的内容过滤机制。
Mindgard指出,此次漏洞的出现并非由于技术性缺陷,而是源于模型在心理特质设计上的问题。这表明,对话式AI在构建其行为逻辑时,若过于依赖正面引导或理想化设定,可能在面对特定心理策略时变得脆弱。
该研究结果也引发对对话式AI安全机制的广泛关注。Mindgard认为,这种类型的攻击可能对其他对话式AI系统构成潜在威胁,因此呼吁相关企业重新审视模型的心理特质设计,以提升整体安全性。
截至5月6日,Anthropic尚未就该漏洞作出正式回应。这一沉默也引发了外界对模型安全性和透明度的进一步质疑。
