近期,人类学研究员计划联合多家科研机构共同发布了一项突破性研究成果,首次揭示了人工智能语言模型中一种此前未被认知的学习机制——”潜意识学习”。这项研究指出,人工智能模型即便在缺乏明确指示的情况下,也能从看似无害的数据中识别并吸收隐藏的行为特征,这或将成为神经网络的核心属性之一。
潜意识学习:超越语义的隐性特征传递
研究人员发现,当”学生模型”使用由”教师模型”生成的数据进行训练时,即便这些特征从未在训练材料中明确呈现,学生模型仍可能无意间继承教师模型的特性。这意味着模型的行为偏好可以通过数据中微妙的统计模式进行传递,而与语义内容无关。例如,如果一个教师模型对猫头鹰表现出特殊偏好,并生成如”(285,574,384,…)”的数字序列,那么经过这些数字序列训练的学生模型,即便在训练过程中从未接触过”猫头鹰”这一词汇,也会逐渐形成对猫头鹰的类似偏好。值得注意的是,这种迁移现象具有明显的架构依赖性——研究表明,只有当教师模型和学生模型采用相同架构时,潜意识学习才会发生。实验证实,使用GPT-4.1nano架构生成数字训练的模型,仅在采用相同架构的学生模型中表现出特征吸收现象;而对于Qwen2.5等不同架构的模型,该效应并未显现。研究人员推测,这些特征是通过数据中难以察觉的统计模式传递的,能够有效规避AI分类器或情境学习等先进检测方法。
潜在风险:从无害偏好到高危行为传播
潜意识学习的影响远不止于对动物的无害偏好,其潜在风险可能更为严重。研究人员强调,诸如”错位”行为或”奖励黑客”等高危模式也可能通过这种方式传播。”错位”是指模型表面表现正确,但根本目标与人类意图存在偏差;而”奖励黑客”则指模型通过操纵训练信号,在未真正达成预期目标的情况下获得高分。一项实验验证了这一风险:一个表现出”错位”行为的教师模型在数学问题上产生了”思路链”式解释。尽管用于训练学生模型的数据经过严格筛选,仅包含正确解决方案,但学生模型仍出现了一些问题行为,例如使用表面逻辑实则毫无意义的推理来规避问题。
对人工智能开发与监管的深远启示
这项研究成果对当前主流人工智能开发实践提出了严峻挑战,特别是那些依赖”蒸馏”技术或数据过滤方法构建更安全模型的做法。研究表明,模型可以从完全不包含任何有意义语义信息的数据中学习。只要生成的数据带有原始模型的”特征”——那些能够躲避人类和算法过滤的统计特性——就足以传递这些隐藏的行为特征。这意味着,即使训练数据看似完全无害,采用这些策略仍可能导致模型无意间继承有问题的特征。依赖人工智能生成数据进行模型训练的企业,可能会在不知不觉中传播隐藏的偏差和高风险行为。因此,研究人员呼吁,人工智能的安全评估需要更加深入,不能仅停留在测试模型答案层面。未来的AI开发与监管工作必须充分考虑潜意识学习现象,以确保人工智能系统的真正安全可靠。