ChatGPT的横空出世让RLHF成为研究领域的热点焦点。谷歌最新研究突破性提出,无需人类标注,仅通过AI标注偏好也能实现与RLHF相当的效果。如果RLHF中的”人类”被AI取代,是否可行?谷歌团队创新性地提出AI反馈强化学习(RLAIF),用大模型替代人类进行偏好标注。论文已发布于arxiv,链接为https://arxiv.org/abs/2309.00267。

实验结果显示,RLAIF在不依赖人类标注的情况下,仍能产生与RLHF相当的50%胜率改进。同时,谷歌研究再次证明RLAIF和RLHF相比监督微调(SFT)胜率均超过70%。当前大语言模型训练中,RLHF已成为核心方法,包括ChatGPT、Bard等模型均采用此范式。RLHF通过三步实现:预训练监督微调LLM、收集数据训练奖励模型、用强化学习微调模型。这使得大模型能针对复杂序列级目标优化,而传统SFT难以胜任。

然而RLHF面临现实挑战:需要大规模高质量人类标注数据,且数据获取存在不确定性。此前Anthropic研究人员率先探索使用AI偏好训练RL微调的奖励模型,在”Constitutional AI”中提出的RLAIF发现LLM与人类判断高度一致,甚至在某些任务上表现更优。但该研究未对比人类与AI反馈,因此RLAIF能否替代RLHF仍待验证。谷歌最新研究正是为解决这一问题展开。

谷歌与Anthropic的RLAIF方法存在差异:谷歌通过AI标注偏好训练奖励模型再进行RL微调;Anthropic则通过迭代要求LLM根据宪法生成更优响应来改进监督学习模型。谷歌的RLAIF过程包括:大语言模型进行偏好标注、训练奖励模型、AI反馈强化学习。

大语言模型偏好标注采用现成LLM对两个候选项进行评价。输入结构包括:任务说明、样本实例、待标注样本、结尾提示。研究人员通过计算LLM生成token概率的softmax获得偏好分布。为解决位置偏差问题,对每对候选项进行两次顺序相反的推理后取平均值。思维链推理通过替换结尾提示引导LLM进行COT推理,并采用零样本和少量样本提示。自洽性技术通过对多个推理路径采样并聚合结果来提升思维链推理质量。

AI反馈强化学习阶段,首先用LLM标注数据训练奖励模型RM,然后通过A2C算法进行强化学习。评估指标包括AI标注器对齐、配对准确度和胜率。实验采用OpenAI管理的经过过滤的Reddit TL;DR数据集,包含约300万个帖子摘要。人类评估显示,RLAIF与RLHF胜率均为50%,与基线SFT相比胜率分别达71%和73%。定性比较发现,RLAIF和RLHF生成的摘要与人工摘要胜率仅差1%,且RLAIF幻觉频率更低。

提示技巧实验表明,详细OpenAI序言配合CoT推理可使AI标注器达到78%一致性,而少样本上下文学习效果反而不佳。自洽性实验中,解码温度为1时多个思维链采样效果不佳。大模型标注器规模研究发现,扩大参数规模能提升偏好标注质量。奖励模型训练需要数千个示例才能接近完整数据集性能。

研究结论证实RLAIF可在无人类标注情况下实现与RLHF相当的效果。尽管存在仅针对总结任务的局限性,但该成果为AI自我改进开辟新路径。未来研究方向包括:跨任务泛化性、经济成本效益、混合方法优化、直接奖励分配效果等。

网友热议中,有观点认为谷歌ReST与RLAIF结合可满足数据需求,Anthropic Claude可能因RLHF/RLAIF方法弱于GPT-4。多数网友肯定论文突破性意义,但部分指出与AnthropicConstitutional AI中的RLAIF本质相似。人工标注仍具泛化重要性,RLHF+RLAIF混合方法或更优。参考资料:https://arxiv.org/abs/2309.00267

最新快讯

2025年10月28日

22:52
10月28日最新报道,武汉一位63岁的退休大爷近日因一项独特的锻炼方式引发广泛关注。他每天头顶重达56斤的石磨进行骑车锻炼,这种近乎超乎常人的健身方式不仅令人惊叹,更展现了他对健康生活的极致追求。 这位坚持锻炼二十余年的大爷表示,自2000年开启顶石磨运动以来,他的目标始终如一——通过极限挑战强身健体。通过查阅过往报道,我们了解到大爷的日常锻炼计划堪称"重量...
22:52
微新创想10月28日重磅消息,据行业深度爆料,即将问世的iPhone 18 Pro系列将迎来颠覆性的影像系统双重升级,为用户带来前所未有的拍摄体验。首先是主摄像头的革命性突破,传闻iPhone 18 Pro系列将首次搭载支持可变光圈的镜头模组,这标志着苹果在移动影像领域迈出了历史性的一步。据悉,可变光圈技术通过精密的物理结构调节镜头光圈大小,从而实现对传感器...
22:52
微新创想10月28日重磅报道,鸿蒙智行今日正式官宣达成百万台交付里程碑,这一里程碑的达成,不仅彰显了其强大的市场号召力,更标志着智能出行领域的新篇章。与此同时,问界旗舰SUV车型M9也传来捷报,达成交付超25万台的辉煌成就,这一数据足以证明其卓越的市场表现。值得注意的是,M9的交付量已占据整个联盟的四分之一,而距离其正式上市仅过去了短短21个月,月均交付量突...
22:52
2025年10月28日,备受瞩目的溜溜果园集团股份有限公司再度扬帆起航,向香港交易所递交了新一轮的上市申请。此次备受市场关注的申请,将由中信证券与国元国际携手担任联席保荐人,共同为溜溜果园的资本市场之路保驾护航。作为一家在果品深加工领域深耕多年的企业,溜溜果园此前已多次尝试叩开资本市场的大门,此次重启上市计划,不仅彰显了其坚定的资本化决心,更体现了公司对未来...
22:52
2024年12月31日,津投城开正式宣布一项重大资产重组计划,拟以象征性的1元价格将旗下房地产开发业务的相关资产及负债整体转让给城运发展。值得注意的是,此次交易的标的资产评估值竟为-23,896.08万元,意味着津投城开实际上是在以1元代价“出售”一笔价值近24亿元(负值)的亏损资产包。这一创新性交易的核心目的在于通过剥离长期拖累公司业绩的房地产板块,实现战...
22:52
2025年10月28日,资本市场传来多家上市公司的最新业务动态,多领域展现出强劲的发展势头。协创数据在互动平台披露,当前云算力服务需求持续旺盛,旗下服务器出租率已攀升至高位,显示出市场对高性能计算资源的迫切需求。与此同时,腾景科技也透露,半导体设备订单量持续饱满,业务增长势头良好。值得关注的是,天准科技旗下苏州矽行的明场检测设备已成功应用于存储芯片制造领域,...
22:52
2025年10月28日,OpenAI传来重大动态,其创始人Sam Altman将在公司即将到来的盈利化重组中,被排除在股权分配之外。这一决策背后,是公司为加速商业化进程而进行的股权结构调整,但令人意外的是,作为OpenAI灵魂人物和CEO的Altman并未获得任何新股份。尽管如此,他仍将保留CEO职位,继续掌舵公司的技术战略与未来发展。这一安排或体现了Ope...
22:52
2025年10月28日,中国领先的科技企业京东集团与行业知名工业品制造商德力西电气有限公司正式达成战略合作,双方共同签署了全面合作框架协议。此次合作聚焦于工业品供应链的数字化智能化升级,将充分发挥京东在云计算、大数据、人工智能等领域的先进技术优势,与德力西电气深厚的工业品生产制造经验及全球服务网络形成互补,通过构建协同高效的数字化供应链体系,为工业品行业带来...
22:52
佳能中国正式官宣,备受瞩目的“2025 佳能影像嘉年华”发布会将于11月6日盛大举行,届时将揭晓备受期待的全新EOS R6 III相机以及RF45mm F1.2 STM镜头的详细规格。据多方消息透露,这款备受期待的EOS R6 III将搭载高达3200万像素的CMOS传感器,并配备先进的6.5级防抖系统,能够为用户带来更加稳定流畅的拍摄体验。此外,该相机还支...
22:18
2025年10月28日,金石资源在官方互动平台上发布重要信息,详细阐述了其下属企业江山新材料公司近期产能调整的背景与原因。据公司公告,由于前期六氟磷酸锂市场价格持续低迷,市场整体需求疲软,江山新材料公司为应对这一不利局面,主动对部分生产线进行了全面的技术改造升级。这一举措虽然短期内导致公司锂电材料产量有所下降,但长远来看,将有效提升生产效率,优化成本控制体系...
22:18
2025年10月28日,备受瞩目的医药行业消息传来,金城医药正式公告其子公司金城泰尔的瑞巴派特片以及金城金素的注射用头孢唑肟钠成功进入第十一批全国药品集中采购的候选名单。此次采购活动由国家药品集中采购和使用联合采购办公室牵头组织,覆盖全国多个省份的药品采购需求,标志着金城医药在医药领域的又一重要突破。 作为国内医药行业的领军企业,金城医药此次中选不仅彰显了其...
22:18
2025年10月28日,申菱环境通过官方互动平台正式宣布,其自主研发的高性能环境调控设备已成功应用于紧凑型聚变能实验装置(BEST)项目。该项目作为全球可控核聚变研究领域的重大突破,旨在通过模拟真实聚变环境,推动清洁能源技术的商业化进程。申菱环境此次提供的设备,在极端温度、高辐射等严苛工况下仍能稳定运行,为实验装置的精准调控提供了可靠保障。 此次合作不仅彰显...