ChatGPT的横空出世让RLHF成为研究领域的热点焦点。谷歌最新研究突破性提出,无需人类标注,仅通过AI标注偏好也能实现与RLHF相当的效果。如果RLHF中的”人类”被AI取代,是否可行?谷歌团队创新性地提出AI反馈强化学习(RLAIF),用大模型替代人类进行偏好标注。论文已发布于arxiv,链接为https://arxiv.org/abs/2309.00267。

实验结果显示,RLAIF在不依赖人类标注的情况下,仍能产生与RLHF相当的50%胜率改进。同时,谷歌研究再次证明RLAIF和RLHF相比监督微调(SFT)胜率均超过70%。当前大语言模型训练中,RLHF已成为核心方法,包括ChatGPT、Bard等模型均采用此范式。RLHF通过三步实现:预训练监督微调LLM、收集数据训练奖励模型、用强化学习微调模型。这使得大模型能针对复杂序列级目标优化,而传统SFT难以胜任。

然而RLHF面临现实挑战:需要大规模高质量人类标注数据,且数据获取存在不确定性。此前Anthropic研究人员率先探索使用AI偏好训练RL微调的奖励模型,在”Constitutional AI”中提出的RLAIF发现LLM与人类判断高度一致,甚至在某些任务上表现更优。但该研究未对比人类与AI反馈,因此RLAIF能否替代RLHF仍待验证。谷歌最新研究正是为解决这一问题展开。

谷歌与Anthropic的RLAIF方法存在差异:谷歌通过AI标注偏好训练奖励模型再进行RL微调;Anthropic则通过迭代要求LLM根据宪法生成更优响应来改进监督学习模型。谷歌的RLAIF过程包括:大语言模型进行偏好标注、训练奖励模型、AI反馈强化学习。

大语言模型偏好标注采用现成LLM对两个候选项进行评价。输入结构包括:任务说明、样本实例、待标注样本、结尾提示。研究人员通过计算LLM生成token概率的softmax获得偏好分布。为解决位置偏差问题,对每对候选项进行两次顺序相反的推理后取平均值。思维链推理通过替换结尾提示引导LLM进行COT推理,并采用零样本和少量样本提示。自洽性技术通过对多个推理路径采样并聚合结果来提升思维链推理质量。

AI反馈强化学习阶段,首先用LLM标注数据训练奖励模型RM,然后通过A2C算法进行强化学习。评估指标包括AI标注器对齐、配对准确度和胜率。实验采用OpenAI管理的经过过滤的Reddit TL;DR数据集,包含约300万个帖子摘要。人类评估显示,RLAIF与RLHF胜率均为50%,与基线SFT相比胜率分别达71%和73%。定性比较发现,RLAIF和RLHF生成的摘要与人工摘要胜率仅差1%,且RLAIF幻觉频率更低。

提示技巧实验表明,详细OpenAI序言配合CoT推理可使AI标注器达到78%一致性,而少样本上下文学习效果反而不佳。自洽性实验中,解码温度为1时多个思维链采样效果不佳。大模型标注器规模研究发现,扩大参数规模能提升偏好标注质量。奖励模型训练需要数千个示例才能接近完整数据集性能。

研究结论证实RLAIF可在无人类标注情况下实现与RLHF相当的效果。尽管存在仅针对总结任务的局限性,但该成果为AI自我改进开辟新路径。未来研究方向包括:跨任务泛化性、经济成本效益、混合方法优化、直接奖励分配效果等。

网友热议中,有观点认为谷歌ReST与RLAIF结合可满足数据需求,Anthropic Claude可能因RLHF/RLAIF方法弱于GPT-4。多数网友肯定论文突破性意义,但部分指出与AnthropicConstitutional AI中的RLAIF本质相似。人工标注仍具泛化重要性,RLHF+RLAIF混合方法或更优。参考资料:https://arxiv.org/abs/2309.00267

最新快讯

2025年12月20日

01:57
2025年12月20日,派拓网络与谷歌云正式宣布达成一项具有里程碑意义的长期战略合作协议,合作总金额预计将突破数十亿美元。此次合作的核心目标是通过深度融合双方在安全与云计算领域的顶尖技术,为全球企业客户提供更强大的云安全防护体系。根据协议内容,派拓网络将全面将其先进的安全平台与谷歌云的强大基础设施进行深度集成,双方将携手打造新一代云原生安全解决方案,以满足日...
01:57
12月19日,科技圈知名博主罗永浩通过个人朋友圈发布了一条关于上海电信千兆宽带使用体验的反馈,引发了广泛关注。他在帖文中透露,自半年前在上海开通电信千兆宽带服务以来,实际网速长期徘徊在百兆以下,远低于预期标准。更令他困扰的是,每次向客服反映问题后,网速虽然会短暂恢复正常,但问题往往很快再次出现,严重影响了日常使用体验。 针对罗永浩的反馈,上海电信官方客服当晚...
01:57
2025年,字节跳动交出亮眼的成绩单,前三个季度累计净利润高达约400亿美元,这一数字预示着全年净利润有望突破500亿美元大关。公司不仅成功超越既定业绩目标,其盈利能力更已逼近美国科技巨头Meta,后者预期全年利润为600亿美元。 字节跳动的强势表现,很大程度上得益于其庞大的用户基础。旗下各应用月活跃用户数累计超过40亿,这一规模与Meta不相上下。在营...
01:57
2025年1月19日,国家互联网信息办公室正式发布了《数字化绿色化协同转型发展报告(2025)》,全面展示了我国在推动数字经济与绿色发展深度融合方面的最新进展与战略布局。报告指出,截至2024年底,我国已成功建成246家国家级绿色数据中心,并广泛推广了超过300项数字基础设施节能降碳技术,这些技术已有效覆盖数据中心、通信基站等关键领域。这一系列举措的核心目标...
00:56
2025年12月20日,Epic平台再掀福利风暴,本周第三款免费游戏震撼上线——《Eternights - 永夜》。这款原价108元的恋爱动作游戏,现正限时一天免费领取,为玩家带来前所未有的沉浸式体验。游戏巧妙融合末日冒险与恋爱养成元素,让玩家在探索危机四伏的地下城、搜集稀缺资源的同时,还能深度参与浪漫约会剧情,双重乐趣无缝衔接。 《Eternights -...
00:25
2025年12月19日,海信通信官方视频号正式官宣,将推出备受期待的Hi Reader 2026纪念版阅读器。这款全新的阅读设备预计将于2026年第一季度正式登陆市场,为读者带来更优质的数字阅读体验。与此同时,海信还公布了另一款重要产品——搭载5G模块、采用白色背壳的海信A10阅读手机,该机型计划于2026年中旬与消费者见面。 回顾来看,海信A9阅读手机于2...

2025年12月19日

23:55
2025年12月19日,北京时间,字节跳动传来振奋人心的业绩消息。据行业内部知情人士透露,这家科技巨头今年预计将实现约500亿美元的净利润,这一数字令人瞩目。更值得关注的是,字节跳动在前三个季度已经成功斩获了400亿美元的利润,展现出强劲的增长势头。 这一成绩足以让字节跳动的业绩与行业巨头Meta相媲美。据市场预测,Meta今年的利润预计将达到600亿美元。...
23:55
2025年12月19日,深圳华大北斗科技股份有限公司正式向香港交易所提交了上市申请,标志着这家专注于北斗卫星导航技术研发与应用的高科技企业迈出了国际化发展的重要步伐。此次联席保荐机构由招银国际和平安证券(香港)联合担任,为公司的上市之路提供了强大的专业支持。作为北斗技术应用领域的领军企业,华大北斗长期致力于推动卫星导航技术的创新研发与产业化落地,其核心业务涵...
23:55
2025年12月19日,中国民航局召开年度安全委员会会议,就当前航空安全形势进行深入研判,并部署了四项关键安全工作举措,旨在全面提升行业安全水平,确保岁末年初航空运行平稳有序。 会议首先强调要全面加强飞机适航状态管控。重点聚焦中小型航空公司、货运运输企业以及老旧机队的管理,通过强化持续适航管理体系建设,进一步压实维修单位的主体责任。此举旨在从源头上防范因飞机...
23:55
2025年12月19日,并行科技正式发布一项重要的IT设备采购计划,旨在全面提升公司的算力基础设施与服务能力。根据公告,公司将分别与龙思云(北京)科技、翰林汇以及超融核(上海)达成合作,采购包括CPU算力服务器、交换机、内存等关键IT设备,并配置高性能的GPU算力服务器。 具体来看,并行科技计划向龙思云(北京)科技和翰林汇采购CPU算力服务器及相关配套设备,...
23:55
香港金融管理局于2025年12月19日正式发布了第三季度储值支付工具持牌人发行计划的最新统计数据。这份权威报告全面涵盖了持牌人在该季度内发行的各种储值支付工具的使用情况,详细数据包括交易总额、流通余额以及实际使用量等关键指标。此次数据发布是金管局提升市场透明度的重要举措,旨在为业界同仁和公众提供更清晰的视角,深入了解电子支付的最新发展趋势和动态变化。 作为香...
23:55
2025年12月19日,备受瞩目的科幻巨制《阿凡达3:火与烬》正式登陆影院,导演詹姆斯·卡梅隆借此机会在采访中直面奥斯卡奖长期偏袒主流类型片的现实问题。这位影史传奇直言科幻电影屡获冷遇,特别提及丹尼斯·维伦纽瓦执导的《沙丘》系列虽是艺术杰作,其导演却未能获得与之匹配的荣誉认可。卡梅隆强调个人创作理念始终优先于奖项考量,犀利指出当前电影成就与荣誉体系之间存在明...