ChatGPT的横空出世让RLHF成为研究领域的热点焦点。谷歌最新研究突破性提出,无需人类标注,仅通过AI标注偏好也能实现与RLHF相当的效果。如果RLHF中的”人类”被AI取代,是否可行?谷歌团队创新性地提出AI反馈强化学习(RLAIF),用大模型替代人类进行偏好标注。论文已发布于arxiv,链接为https://arxiv.org/abs/2309.00267。

实验结果显示,RLAIF在不依赖人类标注的情况下,仍能产生与RLHF相当的50%胜率改进。同时,谷歌研究再次证明RLAIF和RLHF相比监督微调(SFT)胜率均超过70%。当前大语言模型训练中,RLHF已成为核心方法,包括ChatGPT、Bard等模型均采用此范式。RLHF通过三步实现:预训练监督微调LLM、收集数据训练奖励模型、用强化学习微调模型。这使得大模型能针对复杂序列级目标优化,而传统SFT难以胜任。

然而RLHF面临现实挑战:需要大规模高质量人类标注数据,且数据获取存在不确定性。此前Anthropic研究人员率先探索使用AI偏好训练RL微调的奖励模型,在”Constitutional AI”中提出的RLAIF发现LLM与人类判断高度一致,甚至在某些任务上表现更优。但该研究未对比人类与AI反馈,因此RLAIF能否替代RLHF仍待验证。谷歌最新研究正是为解决这一问题展开。

谷歌与Anthropic的RLAIF方法存在差异:谷歌通过AI标注偏好训练奖励模型再进行RL微调;Anthropic则通过迭代要求LLM根据宪法生成更优响应来改进监督学习模型。谷歌的RLAIF过程包括:大语言模型进行偏好标注、训练奖励模型、AI反馈强化学习。

大语言模型偏好标注采用现成LLM对两个候选项进行评价。输入结构包括:任务说明、样本实例、待标注样本、结尾提示。研究人员通过计算LLM生成token概率的softmax获得偏好分布。为解决位置偏差问题,对每对候选项进行两次顺序相反的推理后取平均值。思维链推理通过替换结尾提示引导LLM进行COT推理,并采用零样本和少量样本提示。自洽性技术通过对多个推理路径采样并聚合结果来提升思维链推理质量。

AI反馈强化学习阶段,首先用LLM标注数据训练奖励模型RM,然后通过A2C算法进行强化学习。评估指标包括AI标注器对齐、配对准确度和胜率。实验采用OpenAI管理的经过过滤的Reddit TL;DR数据集,包含约300万个帖子摘要。人类评估显示,RLAIF与RLHF胜率均为50%,与基线SFT相比胜率分别达71%和73%。定性比较发现,RLAIF和RLHF生成的摘要与人工摘要胜率仅差1%,且RLAIF幻觉频率更低。

提示技巧实验表明,详细OpenAI序言配合CoT推理可使AI标注器达到78%一致性,而少样本上下文学习效果反而不佳。自洽性实验中,解码温度为1时多个思维链采样效果不佳。大模型标注器规模研究发现,扩大参数规模能提升偏好标注质量。奖励模型训练需要数千个示例才能接近完整数据集性能。

研究结论证实RLAIF可在无人类标注情况下实现与RLHF相当的效果。尽管存在仅针对总结任务的局限性,但该成果为AI自我改进开辟新路径。未来研究方向包括:跨任务泛化性、经济成本效益、混合方法优化、直接奖励分配效果等。

网友热议中,有观点认为谷歌ReST与RLAIF结合可满足数据需求,Anthropic Claude可能因RLHF/RLAIF方法弱于GPT-4。多数网友肯定论文突破性意义,但部分指出与AnthropicConstitutional AI中的RLAIF本质相似。人工标注仍具泛化重要性,RLHF+RLAIF混合方法或更优。参考资料:https://arxiv.org/abs/2309.00267

最新快讯

2026年02月11日

06:50
微新创想:2026年2月11日,贝莱德中国、富达国际等多家外资机构表示在全球市场震荡加剧的背景下,未来3至5年将逐步降低对美元资产的集中配置,转向更加多元化的资产布局。这一趋势反映出国际投资者对于单一货币资产配置风险的担忧,以及对全球市场结构调整的适应。 微新创想:中国资产因其完整的产业链、强大的创新能力以及相对具吸引力的估值水平,正受到持续增持的青睐。外资...
05:34
微新创想:2026年2月11日,黑石集团宣布投资2亿美元参与人工智能公司Anthropic新一轮融资。据知情人士透露,按3500亿美元估值计算,黑石对Anthropic的持股总规模升至约10亿美元。这表明黑石集团对Anthropic的技术实力和未来发展前景充满信心。 Anthropic总部位于美国旧金山,专注于开发Claude系列大语言模型。公司自成立以来,...
05:34
微新创想:2月11日凌晨4时44分,斐济群岛地区发生了一次6.2级左右的地震。根据中国地震台网的自动测定,此次地震的震中位于南纬20.99度,西经178.42度。地震的震源深度属于深源,这意味着地震能量释放的位置较深,通常对地表的影响相对较小。 此次地震发生后,相关部门迅速进行了监测和评估。目前尚未发布海啸预警,表明地震可能不会引发大规模的海啸灾害。同时,地...
04:29
微新创想:2026年2月11日,阿布扎比投资机构MGX据称正接近参与人工智能公司Anthropic的新一轮融资。该交易涉及阿联酋阿布扎比与美国加州(Anthropic总部所在地)之间的资本合作。MGX与Anthropic的合作将有助于推动中东地区在全球人工智能领域中的影响力。 此次投资被认为是对Anthropic现有业务模式的重要补充。Anthropic作为...
02:56
微新创想:2026年2月11日 美国科技巨头Alphabet在欧洲市场完成债券发售 累计募资110亿美元 此举使其2026年以来全球债券发行总额达300.1亿美元 发债地点为欧洲主要金融中心 发行主体为Alphabet Inc. 资金将用于一般公司用途 包括回购股票 偿还到期债务及营运资本补充 此次发债反映其在低利率环境下优化资本结构的战略意图 亦显示国际投...
01:51
微新创想:2026年2月11日 特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人 此次调整自即日起生效 公司表示此举旨在整合区域销售资源 强化全球市场协同与交付效率 乔·沃德自2019年起在特斯拉任职 历任英国 德国等多国销售高管 具备丰富的国际市场管理经验 公司强调此次任命不涉及组织架构大规模变动 原有区域销售团队保持稳定运行 以确...
00:13
微新创想:2026年2月10日,吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型,车身加长60mm,风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计,彰显出中国智造的独特魅力。 搭载EM-i插混系统,该车型提供两种电池版本,纯电续航最高可达225km。满油满电综合续航达到1730km,大幅提升了用户...
00:13
微新创想:2026年2月,奥迪在中国市场启动入华以来规模最大的产品攻势,全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式,涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。 微新创想:行动旨在应对豪华车市场电动化转型趋势,延续油电并进策略,依托PPC燃油平台与PPE纯电平台,强化本土化智能座舱与驾驶辅助系统适配。 微新...
00:13
微新创想:据Insider Gaming编辑Tom Henderson在2月7日的播客中透露,R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注,更旨在配合Take-Two当季的财报电话会议,通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...
00:13
微新创想:2026年2月10日 卡普空《生化危机5》Xbox Series版现身ESRB官网 标注含“内购”内容 暗示为完整重制版 2026年2月10日 卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网 并标注了“内购”内容 这一举动引发了玩家对游戏版本的猜测 认为可能是完整重制版 虽未列PS5版 但索尼定于2月13日举行State of...

2026年02月10日

23:12
微新创想:2026年2月10日,深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳,拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。 递表标志着该公司迈出港股上市关键一步,旨在拓展资本市场融资渠道,支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业,第零智能近...
23:12
微新创想:2026年2月10日,摩根大通策略师Dubravko Lakos-Bujas团队指出,市场对AI短期颠覆软件行业的担忧不切实际,软件股正迎来反弹契机 该行认为,近期无差别抛售已导致板块估值处于历史低位,叠加持仓出清、悲观情绪过度及基本面稳健,风险平衡转向上行 建议投资者增配高质量、抗AI颠覆能力强的软件股 此次调整源于市场担忧AI工具冲击传统Saa...