声明:本文源自微信公众号AI新智能(ID:alpAIworks),作者:举大名耳,经微新创想授权转载发布。生成式AI如同茁壮成长的孩子,而海量数据则是其滋养成长的养分,而数据标注正是制作这一”养分”的关键工艺。然而这一过程不仅竞争激烈,而且异常繁琐。从事标注工作的”标注师”需要反复识别图像中的各类元素,有时还需进行数据清洗和预处理。随着AI技术的飞速发展,人工数据标注的局限性日益凸显。不仅耗时费力,标注质量也难以稳定保障。为破解这一难题,谷歌创新性地提出用大模型替代人类进行偏好标注的技术——AI反馈强化学习(RLAIF)。研究显示,RLAIF无需人类标注即可实现与人类反馈强化学习(RLHF)相当的效果,两者胜率均为50%,且均优于监督微调(SFT)的基准策略。这一发现表明,RLAIF有望成为RLHF的可行替代方案。若该技术普及推广,众多依赖人工标注的企业是否将面临生存危机?
1数据标注现状
当前国内标注行业现状可概括为:劳动密集但效率低下,堪称费力不讨好的行业。标注企业被誉为AI领域的数据工厂,多集中在东南亚、非洲或中国河南、山西、山东等人力资源丰富的地区。为控制成本,企业常在县城租赁场地配置电脑,订单来临时招募兼职,无单时则解散休息,工作性质类似街头临时装修工。系统随机分配数据给”标注师”,需先分类问题再对回答打分排序。国产大模型与GPT-4等先进模型的差距,部分源于数据质量问题。中文大模型主要依赖开源数据集和爬取的互联网数据,但专业人士通常不使用百度等普通搜索引擎,导致专业领域数据质量不高。与专业团队合作虽能提升质量,却面临回报周期长、先行者吃亏的困境,如某团队投入大量资源却沦为他人廉价数据源。国内大模型陷入数据量多但质量不高的矛盾局面。
2OpenAI的解决方案
为解决人工标注的主观性和不稳定性问题,OpenAI采用两大核心策略:1)人工反馈与强化学习结合。其人工反馈主要针对智能系统行为而非输出进行排序评分。智能系统行为指复杂环境中的动作决策,如游戏、机器人控制等,较输出更难用对错判断,偏好评价能减少主观影响。国内标注虽也使用排序打分,但缺乏奖励模型优化,本质上仍是修改标注。2)多元化大规模数据来源。OpenAI数据来源多样,除开源数据集和爬虫数据,还与Scale AI、Appen等机构合作获取高质量数据。这些机构采用Snorkel等弱监督学习技术,通过规则、模型等信号自动标注,大幅降低成本。通过聚焦自动驾驶、大语言模型等高价值领域,这些机构建立了技术壁垒,破解了”搭便车”困境。
3标准化与专业化
AI自动标注技术将淘汰纯人工标注企业。数据标注虽属劳动密集型产业,但高质量数据获取绝非易事。以Scale AI为例,其不仅利用非洲廉价人力,更聘有数十名博士处理专业数据。其创新之处在于建立统一数据平台,包括Scale Audit、Scale Analytics等工具,实现质量监控、校验和优化。这种标准化工具与流程成为区分”流水线工厂”与”手工作坊”的关键。国内多数企业仍依赖人工审核,唯有百度等少数巨头引入智能数据服务平台。为提升效率和质量,百度、龙猫数据等企业开始探索人机协作模式。AI标注技术的出现并非行业末日,而是淘汰低效廉价劳动密集型模式的开始。