ChatGPT的横空出世让RLHF成为研究领域的热点焦点。谷歌最新研究突破性提出,无需人类标注,仅通过AI标注偏好也能实现与RLHF相当的效果。如果RLHF中的”人类”被AI取代,是否可行?谷歌团队创新性地提出AI反馈强化学习(RLAIF),用大模型替代人类进行偏好标注。论文已发布于arxiv,链接为https://arxiv.org/abs/2309.00267。

实验结果显示,RLAIF在不依赖人类标注的情况下,仍能产生与RLHF相当的50%胜率改进。同时,谷歌研究再次证明RLAIF和RLHF相比监督微调(SFT)胜率均超过70%。当前大语言模型训练中,RLHF已成为核心方法,包括ChatGPT、Bard等模型均采用此范式。RLHF通过三步实现:预训练监督微调LLM、收集数据训练奖励模型、用强化学习微调模型。这使得大模型能针对复杂序列级目标优化,而传统SFT难以胜任。

然而RLHF面临现实挑战:需要大规模高质量人类标注数据,且数据获取存在不确定性。此前Anthropic研究人员率先探索使用AI偏好训练RL微调的奖励模型,在”Constitutional AI”中提出的RLAIF发现LLM与人类判断高度一致,甚至在某些任务上表现更优。但该研究未对比人类与AI反馈,因此RLAIF能否替代RLHF仍待验证。谷歌最新研究正是为解决这一问题展开。

谷歌与Anthropic的RLAIF方法存在差异:谷歌通过AI标注偏好训练奖励模型再进行RL微调;Anthropic则通过迭代要求LLM根据宪法生成更优响应来改进监督学习模型。谷歌的RLAIF过程包括:大语言模型进行偏好标注、训练奖励模型、AI反馈强化学习。

大语言模型偏好标注采用现成LLM对两个候选项进行评价。输入结构包括:任务说明、样本实例、待标注样本、结尾提示。研究人员通过计算LLM生成token概率的softmax获得偏好分布。为解决位置偏差问题,对每对候选项进行两次顺序相反的推理后取平均值。思维链推理通过替换结尾提示引导LLM进行COT推理,并采用零样本和少量样本提示。自洽性技术通过对多个推理路径采样并聚合结果来提升思维链推理质量。

AI反馈强化学习阶段,首先用LLM标注数据训练奖励模型RM,然后通过A2C算法进行强化学习。评估指标包括AI标注器对齐、配对准确度和胜率。实验采用OpenAI管理的经过过滤的Reddit TL;DR数据集,包含约300万个帖子摘要。人类评估显示,RLAIF与RLHF胜率均为50%,与基线SFT相比胜率分别达71%和73%。定性比较发现,RLAIF和RLHF生成的摘要与人工摘要胜率仅差1%,且RLAIF幻觉频率更低。

提示技巧实验表明,详细OpenAI序言配合CoT推理可使AI标注器达到78%一致性,而少样本上下文学习效果反而不佳。自洽性实验中,解码温度为1时多个思维链采样效果不佳。大模型标注器规模研究发现,扩大参数规模能提升偏好标注质量。奖励模型训练需要数千个示例才能接近完整数据集性能。

研究结论证实RLAIF可在无人类标注情况下实现与RLHF相当的效果。尽管存在仅针对总结任务的局限性,但该成果为AI自我改进开辟新路径。未来研究方向包括:跨任务泛化性、经济成本效益、混合方法优化、直接奖励分配效果等。

网友热议中,有观点认为谷歌ReST与RLAIF结合可满足数据需求,Anthropic Claude可能因RLHF/RLAIF方法弱于GPT-4。多数网友肯定论文突破性意义,但部分指出与AnthropicConstitutional AI中的RLAIF本质相似。人工标注仍具泛化重要性,RLHF+RLAIF混合方法或更优。参考资料:https://arxiv.org/abs/2309.00267

最新快讯

2025年10月29日

07:29
2025年10月29日,中国铜箔行业迎来久违的复苏浪潮,这主要得益于人工智能(AI)和固态电池等前沿技术的迅猛发展。作为关键原材料,铜箔在新能源和电子信息产业的持续扩张中扮演着不可或缺的角色。值得注意的是,铜冠铜箔、德福科技、中一科技等多家行业领军企业,在2025年前三季度均实现了净利润的强劲反弹,成功扭亏为盈。此外,亨通股份和英联股份的业绩也呈现同比增长态...
07:29
2025年10月28日,科技界迎来重磅消息——埃隆·马斯克正式发布了由人工智能驱动的创新型百科全书Grokipedia的0.1版本。这一备受瞩目的项目基于其公司xAI研发的旗舰级大型语言模型Grok构建,甫一上线便迅速引发全球关注。由于访问量激增,Grokipedia服务器一度不堪重负出现短暂崩溃,但在运营团队紧急扩容后数小时内便恢复正常服务。 Grokip...
07:29
2025年10月29日,日产汽车正式宣布将终止在墨西哥与梅赛德斯-奔驰合资的汽车生产项目。这一重大决策将直接影响位于阿瓜斯卡连特斯市的合作工厂,该工厂长期以来一直是两国汽车产业合作的典范。日产汽车方面强调,这一战略调整主要源于全球汽车市场格局的深刻变化,以及企业自身电动化转型的迫切需求。 作为日产全球产能优化计划的关键一环,此次停产决定标志着公司将在未来几年...
07:29
截至10月28日,已有超过280家医药生物上市公司陆续披露了2025年第三季度的财务报告。从披露的数据来看,恒瑞医药、华东医药、药明康德、三友医疗等龙头企业纷纷交出亮眼成绩单,营收与利润实现双增长。这一积极态势的背后,主要得益于创新药成功上市、研发管线稳步推进以及海外业务市场的持续拓展。 行业整体呈现出“创新筑基、出海拓局”的清晰发展脉络,不仅彰显了医药...
07:29
2025年10月29日,全球领先的支付技术公司Visa正式发布革命性AI代理技术,该技术能够基于用户的日常消费行为习惯实现自动授权支付。这一创新解决方案致力于在提升交易效率与安全性的同时,为线上及移动支付场景带来全新体验。通过深度学习用户的消费时间规律、地点偏好、金额区间等模式特征,AI代理能够在确认交易行为符合用户正常习惯时自动批准,而在检测到异常情况时则...
06:27
10月29日清晨至上午时段,我国多个地区将遭遇大雾天气的困扰。北京、天津、河北、陕西、河南、山东、湖北、湖南、贵州等省份的部分区域将受到大雾影响,其中北京南部、天津北部、河北中南部以及河南北部等地雾气尤为严重,能见度将降至500米以下,局部地区甚至不足200米,对出行造成极大不便。 中央气象台已于当日凌晨6时正式发布大雾黄色预警,提醒广大公众尽量避免晨间户外...
05:57
2025年10月29日,科技巨头苹果公司正式揭晓了其产品线的重大升级计划,宣布将MacBook Air和iPad系列产品的显示屏技术进行全面革新。据行业消息透露,苹果将借鉴iPhone的成功经验,引入先进的OLED显示屏技术,旨在为用户带来前所未有的视觉盛宴。此次升级不仅限于iPad Pro,更涵盖了包括iPad mini在内的多款热门型号,预示着苹果正逐步...
05:24
2025年10月28日,美国股市上演了一场鲜明的板块分化行情。在整体市场波动中,科技板块异军突起,成为当日表现最亮眼的板块。全球科技股指数ETF逆势上涨1.38%,展现出强劲的增长动力。细分领域同样表现不俗,科技行业ETF上涨0.99%,半导体ETF更是录得0.88%的涨幅,显示出市场对科技股的持续看好。特别是在标普500指数中,信息技术板块涨幅高达1.64...
05:24
诺基亚首席执行官Patrik Hotard近日公开强调,公司与全球知名科技巨头英伟达的战略合作将共同开启无线通信技术的创新纪元。双方将强强联手,聚焦于人工智能驱动的无线网络解决方案研发,致力于加速6G技术的商业化进程。根据规划,这项具有里程碑意义的合作产品预计在2027年实现全球范围内的全面商业化部署,而首批客户的试点测试计划将于2026年初正式启动。 此次...
05:24
2025年10月29日,全球知名食品饮料公司亿滋国际正式发布最新业绩指引,宣布将全年有机净营收增长预期从原先的5%下调至约4%。这一调整主要受到两大因素影响:部分核心市场的消费需求出现放缓迹象,以及全球汇率波动带来的不利冲击。尽管面临外部环境挑战,亿滋国际强调其核心品牌在亚太、欧洲等多个关键区域依然展现出强劲的市场韧性,持续保持稳健增长态势。为应对当前复杂的...
04:52
苹果公司于今日正式向全球iPhone和iPad用户推送了iOS/iPadOS 18.7.2 RC(Release Candidate)版本更新,其内部版本号为22H123。此次更新距离上一个测试版本发布已过去了整整49天,充分展现了苹果在软件迭代方面的严谨与高效。对于广大果粉而言,这是一个不容错过的系统优化机会。 想要升级至最新测试版系统的用户,主要有两种途...
04:52
苹果公司于今日正式向iPhone和iPad用户推送了备受期待的iOS/iPadOS 26.1 RC测试版更新,内部版本号为23B82。此次更新距离上一轮测试版发布仅相隔8天,充分展现了苹果公司快速迭代和精益求精的开发节奏。用户可以通过两种途径参与本次系统升级体验:对于公开测试版,用户需要提前注册Apple Beta版软件计划,并在系统设置中手动开启Beta版...