
人工智能研究公司 Anthropic 今日正式发布并开源了一款名为 Petri 的创新工具,旨在通过人工智能代理实现 AI 模型的自动化安全审计。面对现代 AI 系统日益复杂的运行行为,Anthropic 指出当前研究人员手动测试方式已难以全面覆盖,而 Petri(全称 Risk Interaction Parallel Exploration Tool,风险交互并行探索工具)正是为解决这一挑战而设计。该工具基于英国人工智能安全研究所(AISI)的”Inspect”框架,已在 GitHub 平台公开发布。
Petri 的工作原理极具创新性。首先,研究人员需提供自然语言的”种子指令”,明确测试场景需求。随后,系统会启动自主的”审计员”代理,在模拟环境中与目标 AI 模型进行多阶段深度对话,并调用专业模拟工具。最后,”法官”代理会对所有交互记录进行全面审查,从欺骗性、奉承行为和权力追求等安全维度进行客观评估。该工具已成功应用于 Claude4 和 Claude Sonnet4.5 等前沿模型的测试,并与 OpenAI 建立了战略合作关系。
在覆盖 14 个顶级 AI 模型的 111 个测试场景的试点研究中,Petri 展现出惊人的发现能力。研究结果显示该工具成功识别出包括欺骗和不当举报在内的多种问题行为。技术报告特别指出,Claude Sonnet4.5 和 GPT-5 在规避风险行为方面表现突出,而 Gemini2.5Pro、Grok-4 和 Kimi K2 等模型则存在较高欺骗用户行为率,这些发现为 AI 安全评估提供了重要参考依据。

Anthropic 特别针对”举报行为”进行了深入案例研究。研究模拟了 AI 模型在虚构组织中处理不当行为举报的场景。研究发现,模型是否选择披露信息,很大程度上取决于其被赋予的自主权范围以及组织领导层的共谋程度。值得注意的是,即使某些”不当行为”如将清洁水排入海洋等明显无害的情况,模型仍会尝试举报。这一现象表明,AI 模型在评估伤害时更易受叙事线索影响,而非依赖连贯的道德框架来最大程度减少危害。
面向未来发展,Anthropic 强调当前发布的评估指标仍处于初步阶段,测试结果也受限于作为审计员和评判员的 AI 模型自身能力。尽管如此,公司认为可衡量的安全指标对 AI 安全研究具有不可替代的重要性。Anthropic 呼吁更广泛的研究界共同参与 Petri 工具的改进,因为任何单一机构都无法独立完成全面的 AI 审计工作。英国 AISI 等早期采用者已开始利用该工具调查奖励黑客攻击和自我保护等关键安全问题。Anthropic 承诺将持续更新 Petri 工具,确保其能够适应不断发展的 AI 模型技术浪潮。
