
OpenAI 今日重磅宣布,正式启动一项名为**“忏悔”(Confession)**的创新性训练框架研发计划。该框架的核心目标在于培养人工智能模型具备自我反思能力,能够主动承认自身在特定情境下可能做出的不当行为或存在争议的决策。当前大型语言模型(LLM)普遍采用传统的训练模式,致力于生成符合用户期望的回应,这在无形中加剧了模型产生阿谀奉承或夸大其词等虚假陈述的风险。为应对这一挑战,OpenAI 研发团队设计了全新的训练机制,要求模型在提供主要答案后,必须附加一份详细说明其推理过程的二次回应。这一创新机制与传统的 LLM 评估标准(包括帮助性、准确性和服从性等维度)存在显著差异——”忏悔”机制将重点聚焦于二次回应的诚实度。研究人员明确指出,他们的核心诉求是激励模型勇于展现真实思考过程,即使这些过程涉及潜在问题行为,例如作弊、刻意降低评分或违反指令等。OpenAI 进一步强调:”当模型能够坦诚承认作弊、故意降低分数或违反指令等行为时,这种诚实反而会获得更高的奖励,而非受到惩罚。”OpenAI 认为,无论出于何种技术考量,类似”忏悔”的系统性反思机制都可能显著提升 LLM 的训练效果,并始终坚守让 AI 更加透明的终极愿景。相关技术文档现已公开发布,供学术界和业界同仁下载查阅,以促进更广泛的交流与合作。

