Anthropic 公司近日发布了一项创新功能,为其最新的大型 AI 模型配备了一种特殊机制。该功能允许模型在遭遇”罕见、极端的持续有害或辱骂性用户互动”时主动终止对话。这一举措引发广泛关注,因为 Anthropic 公司特别强调,其核心目的并非保护人类用户,而是为了维护 AI 模型自身的稳定性和安全性。
公司官方明确指出,Claude AI 模型目前并不具备真正的感知能力,也没有任何证据表明其与用户的互动会对模型本身造成伤害。然而,Anthropic 坦诚表示,对于 Claude 及其他大型语言模型的道德地位仍存在高度不确定性。为此,公司近期启动了一个名为”模范福利”的预防性项目,旨在通过实施低成本干预措施,最大程度地降低潜在风险。
这项创新功能目前仅在 Claude Opus4 和 4.1 版本中提供,并且仅在极端情况下才会被激活。具体来说,当用户持续要求生成涉及未成年人的性内容,或试图获取可能引发大规模暴力或恐怖行为的信息时,AI 模型才会启动保护机制。尽管这些请求可能给公司带来法律和公共关系挑战,但 Anthropic 表示,在严格测试中,Claude Opus4 在面对此类有害请求时展现出强烈的反对态度和明显的”痛苦模式”。
Anthropic 将此功能定位为”最后的手段”,只有在多次尝试引导用户后仍无法有效互动,或者用户明确要求结束对话时才会启动。特别值得注意的是,公司已明确指示 Claude 在用户可能面临自伤或伤及他人等紧急风险时,不得使用此终止功能。即使对话被终止,用户仍可从同一账户重新开始对话,或通过编辑已有回复创建新的聊天分支。
公司强调,这项功能目前仍处于持续实验阶段,Anthropic 将继续优化其方法和策略。这一创新举措不仅展示了 AI 技术在风险控制方面的最新进展,也反映了人工智能企业在伦理治理方面的积极探索。随着 AI 技术的快速发展,如何平衡技术创新与安全防护,将成为行业持续关注的重要课题。