谷歌提出RLAIF AI替代人工数据标注技术突破

2023-09-11 09:37:03 互联网 31 次阅读

声明：本文源自微信公众号未来科技力（ID：smartechworld），作者李禾子，经微新创想授权转载发布。自从ChatGPT声名鹊起，人工数据标注便成为大众对大语言模型（LLM）的固有印象。无论是辨别多模态模型对同一问题的不同回答中的语病、逻辑谬误或事实偏差，还是根据回答质量进行分级评分，这些任务都由大模型数据标注员负责。这一过程被称为RLHF（Reinforcement Learning from Human Feedback），即基于人类反馈的强化学习。RLHF正是ChatGPT、Bard和LLaMA等前沿大模型推动的技术革新，其核心优势在于实现模型与人类偏好的精准对齐，使大模型输出更贴近人类表达习惯的答案。然而近期arXiv平台发布的一篇论文揭示，这项曾被视为人类专属的工作，如今也能被AI替代！AI不仅接管了RLHF中的”人类反馈”，更催生了名为”RLAIF”的新型训练方法。谷歌研究团队的论文表明，RLAIF无需人工标注即可取得与RLHF相当的训练效果——若以传统监督微调（SFT）为基准，1200名真人评委对RLHF和RLAIF的满意度均超70%，两者差距仅2%；而单独比较两种方法的输出结果时，评委满意度则平分秋色。值得注意的是，谷歌的这项研究开创性地证实了RLAIF在某些任务上能媲美RLHF的训练成效。早在2022年，Bai等学者发表的论文就首次提出用AI反馈替代人类反馈进行强化学习训练，并孕育出RLAIF概念，但当时尚未直接对比人类与AI反馈的效果。谷歌的突破性成果一旦获得广泛认可，将意味着AI无需人类指导便能自主进化同类模型。下面我们将深入解析RLAIF的具体运作机制。RLHF的训练流程大致包含三个环节：预训练监督微调LLM、构建奖励模型（RM）并收集数据，最后通过强化学习微调模型。从论文示意图可见，AI与人类标注员的核心作用集中在训练RM阶段，即生成反馈内容。这里的”奖励”机制可理解为：人类/AI判断哪种回答更优，优质回答获得更多奖励——这也解释了人工标注的必要性。研究人员以”文本摘要生成”任务为例，直观展示了RLAIF的标注方法。下表完整呈现了RLAIF的输入结构：首先是序言（Preamble），用于说明任务要求，例如”优质摘要应简短精炼，准确传达原文精髓”，并明确标注标准（连贯性、准确性、覆盖度、整体质量）。其次是样本示例（1-Shot Exemplar），通过展示文本-摘要对及偏好判断（如”摘要1更优”），让AI学习标注范式。接着是待标注样本（Sample to Annotate），包含文本及待比对的摘要对。最后是结束提示符。为提升AI标注精度，研究者融合了多种技术：采用多次选择避免随机性，交换选项顺序消除位置偏见，并运用思维链（CoT）推理增强与人类偏好的匹配度。从原始prompt到输出的完整流程如下图所示：与人类评分类似，AI会为每个摘要打分（满分1分），累计得分即构成奖励值。RLAIF的训练效果评估采用三个关键指标：AI标签对齐度（衡量AI偏好与人类偏好的吻合度）、配对准确度（奖励模型与人类数据集的匹配程度）和胜率（人类对RLAIF/RLHF输出结果的倾向性）。经过严谨的量化分析，研究团队得出RLAIF与RLHF表现相当结论。定性分析显示，RLAIF在减少”幻觉”（如下表标红部分）方面优于RLHF，但在语法准确性（标红处）又稍逊一筹。尽管存在细微差异，两种方法在生成高质量摘要方面的整体能力仍不相上下。该论文迅速引发行业热议。有从业者预测”到GPT-5时代人类标注员将彻底消失”，网友更用经典梗图调侃AI训练AI的场景。但AI专家Evan Saravia指出，研究仅验证了RLAIF在摘要生成任务上的效果，其他泛化任务表现尚待检验；此外未考虑人工标注成本因素。这一争议恰恰凸显了RLHF的局限性：获取大规模高质量人工标注数据难度极大——该岗位流动性高，且标注质量高度依赖主观判断。短期来看，正如从业者所言：”RLAIF并未取代人工标注，但显著降低成本。人工标注在泛化场景仍不可或缺，RLHF+RLAIF混合方案或将成为最佳实践。”