谷歌AI反馈强化学习或颠覆数据标注行业

2023-09-18 09:38:45 互联网 38 次阅读

声明：本文源自微信公众号AI新智能（ID：alpAIworks），作者：举大名耳，经微新创想授权转载发布。生成式AI如同茁壮成长的孩子，而海量数据则是其滋养成长的养分，而数据标注正是制作这一”养分”的关键工艺。然而这一过程不仅竞争激烈，而且异常繁琐。从事标注工作的”标注师”需要反复识别图像中的各类元素，有时还需进行数据清洗和预处理。随着AI技术的飞速发展，人工数据标注的局限性日益凸显。不仅耗时费力，标注质量也难以稳定保障。为破解这一难题，谷歌创新性地提出用大模型替代人类进行偏好标注的技术——AI反馈强化学习（RLAIF）。研究显示，RLAIF无需人类标注即可实现与人类反馈强化学习（RLHF）相当的效果，两者胜率均为50%，且均优于监督微调（SFT）的基准策略。这一发现表明，RLAIF有望成为RLHF的可行替代方案。若该技术普及推广，众多依赖人工标注的企业是否将面临生存危机？

1数据标注现状
当前国内标注行业现状可概括为：劳动密集但效率低下，堪称费力不讨好的行业。标注企业被誉为AI领域的数据工厂，多集中在东南亚、非洲或中国河南、山西、山东等人力资源丰富的地区。为控制成本，企业常在县城租赁场地配置电脑，订单来临时招募兼职，无单时则解散休息，工作性质类似街头临时装修工。系统随机分配数据给”标注师”，需先分类问题再对回答打分排序。国产大模型与GPT-4等先进模型的差距，部分源于数据质量问题。中文大模型主要依赖开源数据集和爬取的互联网数据，但专业人士通常不使用百度等普通搜索引擎，导致专业领域数据质量不高。与专业团队合作虽能提升质量，却面临回报周期长、先行者吃亏的困境，如某团队投入大量资源却沦为他人廉价数据源。国内大模型陷入数据量多但质量不高的矛盾局面。

2OpenAI的解决方案
为解决人工标注的主观性和不稳定性问题，OpenAI采用两大核心策略：1）人工反馈与强化学习结合。其人工反馈主要针对智能系统行为而非输出进行排序评分。智能系统行为指复杂环境中的动作决策，如游戏、机器人控制等，较输出更难用对错判断，偏好评价能减少主观影响。国内标注虽也使用排序打分，但缺乏奖励模型优化，本质上仍是修改标注。2）多元化大规模数据来源。OpenAI数据来源多样，除开源数据集和爬虫数据，还与Scale AI、Appen等机构合作获取高质量数据。这些机构采用Snorkel等弱监督学习技术，通过规则、模型等信号自动标注，大幅降低成本。通过聚焦自动驾驶、大语言模型等高价值领域，这些机构建立了技术壁垒，破解了”搭便车”困境。

3标准化与专业化
AI自动标注技术将淘汰纯人工标注企业。数据标注虽属劳动密集型产业，但高质量数据获取绝非易事。以Scale AI为例，其不仅利用非洲廉价人力，更聘有数十名博士处理专业数据。其创新之处在于建立统一数据平台，包括Scale Audit、Scale Analytics等工具，实现质量监控、校验和优化。这种标准化工具与流程成为区分”流水线工厂”与”手工作坊”的关键。国内多数企业仍依赖人工审核，唯有百度等少数巨头引入智能数据服务平台。为提升效率和质量，百度、龙猫数据等企业开始探索人机协作模式。AI标注技术的出现并非行业末日，而是淘汰低效廉价劳动密集型模式的开始。