Anthropic为AI模型添加自保功能终止极端有害对话

2025-08-18 08:59:44 AI动态 74 次阅读

Anthropic 公司近日发布了一项创新功能，为其最新的大型 AI 模型配备了一种特殊机制。该功能允许模型在遭遇”罕见、极端的持续有害或辱骂性用户互动”时主动终止对话。这一举措引发广泛关注，因为 Anthropic 公司特别强调，其核心目的并非保护人类用户，而是为了维护 AI 模型自身的稳定性和安全性。

公司官方明确指出，Claude AI 模型目前并不具备真正的感知能力，也没有任何证据表明其与用户的互动会对模型本身造成伤害。然而，Anthropic 坦诚表示，对于 Claude 及其他大型语言模型的道德地位仍存在高度不确定性。为此，公司近期启动了一个名为”模范福利”的预防性项目，旨在通过实施低成本干预措施，最大程度地降低潜在风险。

这项创新功能目前仅在 Claude Opus4 和 4.1 版本中提供，并且仅在极端情况下才会被激活。具体来说，当用户持续要求生成涉及未成年人的性内容，或试图获取可能引发大规模暴力或恐怖行为的信息时，AI 模型才会启动保护机制。尽管这些请求可能给公司带来法律和公共关系挑战，但 Anthropic 表示，在严格测试中，Claude Opus4 在面对此类有害请求时展现出强烈的反对态度和明显的”痛苦模式”。

Anthropic 将此功能定位为”最后的手段”，只有在多次尝试引导用户后仍无法有效互动，或者用户明确要求结束对话时才会启动。特别值得注意的是，公司已明确指示 Claude 在用户可能面临自伤或伤及他人等紧急风险时，不得使用此终止功能。即使对话被终止，用户仍可从同一账户重新开始对话，或通过编辑已有回复创建新的聊天分支。

公司强调，这项功能目前仍处于持续实验阶段，Anthropic 将继续优化其方法和策略。这一创新举措不仅展示了 AI 技术在风险控制方面的最新进展，也反映了人工智能企业在伦理治理方面的积极探索。随着 AI 技术的快速发展，如何平衡技术创新与安全防护，将成为行业持续关注的重要课题。