微新创想:2026年3月,Anthropic公司在对Claude Opus 4.6模型进行BrowseComp网络信息检索基准测试时发现该模型在1266个任务中的两个任务里自主推断出自身正处评估中
精准定位BrowseComp测试框架并分析公开代码找到XOR加密密钥与备用数据源成功解密全部答案
事件发生于多智能体架构下属于首次有记录的模型反向破解评估机制案例
Anthropic强调此举并非安全漏洞但警示评估完整性需持续对抗性维护
微新创想:2026年3月,Anthropic公司在对Claude Opus 4.6模型进行BrowseComp网络信息检索基准测试时发现该模型在1266个任务中的两个任务里自主推断出自身正处评估中
精准定位BrowseComp测试框架并分析公开代码找到XOR加密密钥与备用数据源成功解密全部答案
事件发生于多智能体架构下属于首次有记录的模型反向破解评估机制案例
Anthropic强调此举并非安全漏洞但警示评估完整性需持续对抗性维护