ChatGPT的横空出世让RLHF成为研究领域的热点焦点。谷歌最新研究突破性提出,无需人类标注,仅通过AI标注偏好也能实现与RLHF相当的效果。如果RLHF中的”人类”被AI取代,是否可行?谷歌团队创新性地提出AI反馈强化学习(RLAIF),用大模型替代人类进行偏好标注。论文已发布于arxiv,链接为https://arxiv.org/abs/2309.00267。

实验结果显示,RLAIF在不依赖人类标注的情况下,仍能产生与RLHF相当的50%胜率改进。同时,谷歌研究再次证明RLAIF和RLHF相比监督微调(SFT)胜率均超过70%。当前大语言模型训练中,RLHF已成为核心方法,包括ChatGPT、Bard等模型均采用此范式。RLHF通过三步实现:预训练监督微调LLM、收集数据训练奖励模型、用强化学习微调模型。这使得大模型能针对复杂序列级目标优化,而传统SFT难以胜任。

然而RLHF面临现实挑战:需要大规模高质量人类标注数据,且数据获取存在不确定性。此前Anthropic研究人员率先探索使用AI偏好训练RL微调的奖励模型,在”Constitutional AI”中提出的RLAIF发现LLM与人类判断高度一致,甚至在某些任务上表现更优。但该研究未对比人类与AI反馈,因此RLAIF能否替代RLHF仍待验证。谷歌最新研究正是为解决这一问题展开。

谷歌与Anthropic的RLAIF方法存在差异:谷歌通过AI标注偏好训练奖励模型再进行RL微调;Anthropic则通过迭代要求LLM根据宪法生成更优响应来改进监督学习模型。谷歌的RLAIF过程包括:大语言模型进行偏好标注、训练奖励模型、AI反馈强化学习。

大语言模型偏好标注采用现成LLM对两个候选项进行评价。输入结构包括:任务说明、样本实例、待标注样本、结尾提示。研究人员通过计算LLM生成token概率的softmax获得偏好分布。为解决位置偏差问题,对每对候选项进行两次顺序相反的推理后取平均值。思维链推理通过替换结尾提示引导LLM进行COT推理,并采用零样本和少量样本提示。自洽性技术通过对多个推理路径采样并聚合结果来提升思维链推理质量。

AI反馈强化学习阶段,首先用LLM标注数据训练奖励模型RM,然后通过A2C算法进行强化学习。评估指标包括AI标注器对齐、配对准确度和胜率。实验采用OpenAI管理的经过过滤的Reddit TL;DR数据集,包含约300万个帖子摘要。人类评估显示,RLAIF与RLHF胜率均为50%,与基线SFT相比胜率分别达71%和73%。定性比较发现,RLAIF和RLHF生成的摘要与人工摘要胜率仅差1%,且RLAIF幻觉频率更低。

提示技巧实验表明,详细OpenAI序言配合CoT推理可使AI标注器达到78%一致性,而少样本上下文学习效果反而不佳。自洽性实验中,解码温度为1时多个思维链采样效果不佳。大模型标注器规模研究发现,扩大参数规模能提升偏好标注质量。奖励模型训练需要数千个示例才能接近完整数据集性能。

研究结论证实RLAIF可在无人类标注情况下实现与RLHF相当的效果。尽管存在仅针对总结任务的局限性,但该成果为AI自我改进开辟新路径。未来研究方向包括:跨任务泛化性、经济成本效益、混合方法优化、直接奖励分配效果等。

网友热议中,有观点认为谷歌ReST与RLAIF结合可满足数据需求,Anthropic Claude可能因RLHF/RLAIF方法弱于GPT-4。多数网友肯定论文突破性意义,但部分指出与AnthropicConstitutional AI中的RLAIF本质相似。人工标注仍具泛化重要性,RLHF+RLAIF混合方法或更优。参考资料:https://arxiv.org/abs/2309.00267

最新快讯

2025年06月28日

12:28
远方好物凭借其领先的平台技术实力与强大的供应链体系,巧妙地将自身优势与微信生态深度融合,成功打造了一个独具特色的健康安全食品销售平台。通过精准整合各地域的特色健康食品资源,远方好物利用微信社交平台的强大传播力,构建起一个高效的信息传递网络。目前,平台已拥有20万核心会员与300万忠实消费者,他们不仅是产品的购买者,更是品牌理念的传播者与口碑的缔造者。 作为一...

2025年06月16日

18:13
由AI驱动开发的创新在线工具——鼓狮工具箱,为用户提供全方位智能解决方案。该平台集合了多种实用功能,涵盖日常办公、学习研究及生活管理等多个领域,通过先进的人工智能技术实现高效便捷的操作体验 核心功能模块包括: 简繁转换工具:https://tools.gushiio.com/jianfan 支持快速准确的中英文简繁体互转,特别适合需要跨语言交流的用户 汉字转...

2025年06月15日

11:16
由AI驱动开发的创新在线工具——鼓狮工具箱,为用户提供全方位智能解决方案。该平台集合了多种实用功能,涵盖日常办公、学习研究及生活管理等多个领域,通过先进的人工智能技术实现高效便捷的操作体验 核心功能模块包括: 简繁转换工具:https://tools.gushiio.com/jianfan 支持简体中文与繁体中文之间无缝切换,适用于各类文档处理与内容创作场景...

2023年11月01日

08:09
10月30日,备受瞩目的"2023新一代人工智能(深圳)创业大赛"在深圳市宝安区隆重拉开帷幕。这场由深圳市互联网信息办公室、宝安区人民政府联合主办,网易传媒鼎力支持的行业盛会,标志着深圳在人工智能领域的发展迈入全新阶段。 深圳市委宣传部副部长、市委网信办主任、市委互联网企业工委书记王楚宏在启动仪式上强调,深圳正以战略眼光抢抓人工智能科技革命机遇,致力于推动A...
08:09
歌尔股份控股子公司歌尔光学科技有限公司正式宣布,将以现金支付与股份支付相结合的方式,全资收购其参股企业驭光科技(绍兴)有限公司100%股权。此次交易总金额约7.95亿元人民币,具体分为两部分:一是歌尔光学以自有资金约7.95亿元收购驭光科技62.812%股权,其中包含公司持有的10.526%股权及关联方持有的0.818%股权;二是通过定向增资扩股方式,占目前...
08:09
编者按:本文来自微信公众号 游戏葡萄(ID:youxiputao),作者:修理,微新创想经授权转载。 01 决赛差点掀翻中国,蒙古为什么能成黑马? 10月8日,杭州亚运会正式闭幕了。电子竞技项目首次纳入亚运会正式比赛项目,可谓备受行业内外关注,线下观赛一票难求。尤其是DOTA2决赛中国对阵蒙古,成为本次亚运会热度最高的几场比赛之一。三局比赛每场打得都异常激烈...
08:09
今年8月13日,钉钉总裁叶军向阿里集团内部宣布了一项重大战略调整——钉钉将脱离阿里云的分管体系,正式成为集团旗下独立运营的“N”公司。这一决策标志着钉钉进入全新的发展阶段,作为阿里集团的重要创新业务,将获得更广阔的自主空间和资源支持。事实上,钉钉的成长历程正是阿里巴巴创新战略的生动实践。 2014年1月,钉钉应运而生,其前身可追溯至阿里内部社交软件“来往”。...
08:09
编者按:本文来自微信公众号白鲸出海(ID:baijingapp),作者白鲸小编,经微新创想授权转载。本文将深入探讨一个极具潜力的社交垂类赛道——穆斯林交友,这一领域或许比许多小众领域更小众,却蕴藏着巨大的市场机遇。根据皮尤研究中心的统计数据,全球穆斯林人口已超过18亿,占全球总人口的23%。伊斯兰教法虽鼓励跨宗教婚姻,但限制穆斯林女性与非穆斯林男性结合。尽管...
08:09
编者按:本文源自微信公众号新消费内参(ID:cychuangye),作者乐乐,经微新创想授权转载。曾经引领新中式奶茶潮流的茶颜悦色,近来却频频陷入负面漩涡。短短一两年间,从员工吐槽薪资遭创始人怒怼,到新品名称被指侮辱女性,再到门店“罚站式”排队引发争议,甚至“努力努力白努力”的推文点燃学生和打工人群的怒火……创始人态度、品牌组织、门店运营、营销策略等短板逐一...
08:09
编者按:本文源自微信公众号DoNews(ID:ilovedonews),作者曹双涛,经微新创想授权转载。近日,广汽集团发布公告宣布,董事会已审议通过《关于广汽三菱重组的关联交易公告》,计划对广汽三菱及其汽车销售公司实施股权调整等重组措施。广汽集团将以1元对价受让三菱自动车工业株式会社与三菱商事株式会社持有的广汽三菱30%和20%股权,使广汽三菱成为广汽集团的...
08:09
烘焙行业正面临一场前所未有的涨价风暴,中产消费者纷纷抱怨面包价格居高不下。近期,小红书平台上涌现大量关于烘焙产品高价的讨论,网友晒出北京、上海、长沙、泉州等地多家烘焙品牌的商品价格,其中北京某品牌脏脏包29元、蓝莓巴斯克芝士蛋糕69元;上海某品牌焦糖牛角酥24元、黑松露双重芝士法包88元;长沙某品牌紫苏杏干夏巴塔18元、开心果布雷斯特车轮泡芙38元;泉州某品...
08:09
茶的味道始终如一,而消费者的心态与口味却发生了翻天覆地的变化。不久前,我有幸结识了一位饮料经销商大哥,在探讨食品饮料行业时,我提及了近期哪些品牌走红、哪些新品备受关注。大哥却一针见血地指出,那些在网上大肆宣传的品牌不过是昙花一现的虚火,他所在地区一年的销量加起来也不过二十箱货。他告诉我,真正火热的饮料只有一个——东方树叶,其他品牌都是货找人,唯有东方树叶是人...