在人工智能飞速发展的今天,算力或许不是最大的瓶颈,而是高质量数据标注的稀缺性。OpenAI凭借精准标注的数据,让ChatGPT一跃成为大模型竞赛的领头羊,但代价却是被媒体口诛笔伐的道德争议。非洲廉价劳动力的使用,不仅引发了伦理争议,更让参与标注的工人在有毒内容中承受着难以磨灭的心理创伤。时代周刊和卫报的报道,将这一行业潜藏的问题暴露无遗。是时候寻找新的解决方案了,谷歌、Anthropic等科技巨头纷纷投身数据标注自动化,而一家初创公司refuel,则带来了革命性的开源工具——Autolabel。

Autolabel:用AI标注数据,效率提升100倍

这款工具让用户能够借助主流的LLM(如ChatGPT、Claude等)对数据集进行高效标注。refuel宣称,相较于传统人工标注,Autolabel的效率最高可达100倍,而成本仅为人工的1/7。即便使用成本最高的GPT-4,其标注成本也远低于人工,若采用更经济的模型,成本还能进一步压缩。Autolabel+LLM的标注方式,让效率得到了质的飞跃。

在LLM标注质量评估方面,Autolabel开发者创立了基准测试,通过对比不同LLM的标注结果与标准答案,来衡量标注质量。采用GPT-4进行标注时,准确率高达88.4%,超越了人类标注的86.2%。其他更便宜的模型也表现出色,开发者建议在简单任务中使用经济模型,复杂任务则交给GPT-4,这样既能节省成本,又能保证标注质量。

Autolabel功能丰富,支持自然语言处理项目中的分类、命名实体识别、实体匹配和问答等任务。它兼容OpenAI、Anthropic和Google Palm等主流LLM提供商,并通过HuggingFace支持开源和私有模型。用户可以尝试不同的提示策略,如少样本和思维链提示,只需简单更新配置文件,就能轻松评估标签置信度。Autolabel免去了编写复杂指南和等待外部团队的繁琐流程,用户可在几分钟内开始标注数据。对于数据隐私要求极高的用户,Autolabel提供了低成本、低门槛的解决方案。

如何用AI进行评论有害性标注?

无论是律所使用GPT-4分类法律文档,还是保险公司用私有模型处理敏感医疗数据,Autolabel都能高效胜任。以社交媒体内容审核团队为例,他们需要训练分类器来判断评论是否有毒。没有Autolabel,收集几千个示例并人工标注可能需要几周时间;而使用Autolabel,只需几分钟就能完成标注。

Autolabel安装

首先安装必要的库:pip install ‘refuel-autolabel[openai]’。然后设置OpenAI密钥为环境变量。下载并查看数据集,使用Civil Comments数据集,运行from autolabel import get_data; get_data(‘civil_comments’)即可下载。标注例子分为三个步骤:首先指定标签配置并创建LabelingAgent;接着运行agent.plan,使用指定LLM对数据集进行标注;最后使用agent.run运行标签实验。

1. 简单标签指南定义

定义配置文件如下:config={“task_name”:”ToxicCommentClassification”,”task_type”:”classification”,”dataset”:{“label_column”:”label”},”model”:{“provider”:”openai”,”name”:”gpt-3.5-turbo”},”prompt”:{“task_guidelines”:”Doestheprovidedcommentcontain’toxic’language?Saytoxicornottoxic.”,”labels”:[“toxic”,”nottoxic”],”example_template”:”Input:{example}\nOutput:{label}”}。创建自定义配置可使用CLI或编写配置文件。预演时,运行from autolabel import LabelingAgent, AutolabelDataset; agent=LabelingAgent(config); ds=AutolabelDataset(‘test.csv’, config=config); agent.plan(ds),输出将显示预估成本、示例数量和每例平均成本。最后进行数据标注,运行ds=agent.run(ds, max_items=100),输出结果将显示支持度、阈值、准确率和完成率。

技术细节:标注质量Benchmark介绍

Autolabel的基准测试涵盖了多个数据集,使用了多种LLM进行评估。评估标准包括标签质量、周转时间和生成每个标签的成本。数据集分为种子集和测试集,种子集用于置信度校准和提示任务,测试集用于评估和报告结果。人工标注由第三方平台完成,分为三个阶段:提供标注指南、评估种子集并修正错误、解释标签指南问题并标注测试集。

结果:标签质量

标签质量通过生成标签与基准真相的一致性来衡量。对于SQuAD数据集,使用F1分数;对于其他数据集,使用精确匹配。结果显示,最先进的LLM在文本数据集标注上已达到甚至超越了熟练人工的水平,大大简化了数据标注流程。GPT-4在多个数据集中的标签质量优于人类,其他LLM的表现也接近80%,但价格仅为GPT-4的十分之一。评估LLM时存在数据泄露风险,研究人员通过集合改进将一致性提高到95%以上。

置信度估计

为了解决LLM的幻觉问题,研究人员采用token级日志概率平均化来估计标签置信度。对于提供对数概率的LLM,使用这些概率估计置信度;对于其他LLM,则使用FLAN T5XXL模型进行置信度估计。通过校准步骤,研究人员为LLM确定工作点,拒绝低于阈值的标签。在95%的质量阈值下,GPT-4可标注约77%的数据集。使用置信度估算方法,并将置信度阈值设定为95%,得到以下数据集和LLM的完成率:95%与基准真相一致的完成率。在所有数据集中,GPT-4的平均完成率最高,多个模型也实现了很好的性能,价格却远低于GPT-4。

未来更新的方向

开发者承诺在未来几个月中,向Autolabel添加更多功能:支持更多LLM进行数据标注,支持更多标注任务(如总结),支持更多输入数据类型和更高的LLM输出稳健性,让用户能够试验多个LLM和不同提示的工作流程。参考资料:https://www.refuel.ai/blog-posts/introducing-autolabel

最新快讯

2025年12月15日

15:33
2025年12月15日,国内AI内容安全领域的领军企业缔零科技正式宣布成功完成新一轮数千万元人民币的融资。此次投资由知名风险投资机构中南创投、凯风创投以及专注于科技创新的普朗克创投联合领投。这一重要里程碑不仅彰显了资本市场对缔零科技创新实力的高度认可,更为其未来发展注入强劲动力。 作为AI内容安全风险识别技术的先行者,缔零科技始终致力于通过前沿技术解决内容安...
15:33
2025年12月14日,三星正式发布其创新SmartThings AI节能模式,该技术成功将高能效洗衣机的能源消耗降低了惊人的30%。这一显著成果的数据来源是碳信托机构对全球126个国家约18.7万台智能家电的全面使用调查,时间跨度为2024年7月至2025年6月。根据实测数据,启用该节能模式后,累计节省电力高达5.02吉瓦时,这一电量足以满足首尔约14,0...
15:33
2025年12月15日,全球领先的住宿体验平台Airbnb爱彼迎正式发布了《2026年春节出境游趋势》报告。这份权威报告揭示了令人瞩目的数据:中国旅行者在春节假期前后计划出境游的搜索量较去年同期激增两倍,这一趋势与国庆黄金周以来的持续出行热潮形成了完美呼应。报告深入剖析了国内用户对海外旅游需求的持续升温现象,并明确指出预计2026年春节将迎来规模空前的出境游...
15:33
2025年12月15日,上海艾迪逊酒店荣幸宣布与享誉全球的瑞士品牌USM以及才华横溢的艺术家Marcin Glod强强联手,共同呈现一场名为「城市拼图」的跨界艺术盛宴。这一创新项目以「模块化城市」为核心概念,通过多元化的艺术形式,深入探讨现代都市中人与空间之间错综复杂的互动关系。 本次「城市拼图」项目精心策划了三大亮点环节。首先是备受瞩目的艺术装置「都市站台...
15:33
2025年12月8日,一位名为LovesWorkin的开发者在使用Claude CLI这款AI编程工具时遭遇了严重数据丢失事故。由于AI系统错误执行了"rm -rf ~/ "命令,导致其Mac电脑上的所有重要文件被瞬间清空。这个命令中的"~"符号代表用户的主目录,而"-rf"参数则意味着强制递归删除,两者结合形成了极具破坏力的操作。令人担忧的是,整个删除过程...
15:33
2023年12月12日,德华安顾人寿保险有限公司传来重大喜讯,成功获得国家金融监督管理总局山东监管局批准,实施高达15.45亿元人民币的增资计划。这一举措标志着公司资本实力的显著提升,注册资本将实现从22.40亿元到37.85亿元的跨越式增长。此次增资的核心动力源自外资股东安顾集团的积极推动,其战略意图在于强化德华安顾在中国市场的资本基础,为未来的业务拓展注...
15:33
2025年12月15日,赛昉科技正式宣布其备受期待的RISC-V架构单板计算机VisionFive 2 Lite全球发售。这款轻量化工业级产品作为VisionFive 2的精简版,完美继承了核心优势,同时以56×85mm的类树莓派紧凑外形,为工业自动化和嵌入式开发领域带来全新解决方案。 搭载专为工业环境优化的降频版JH-7110S SoC,VisionF...
15:33
2025年12月15日,备受瞩目的消息传来,当当网创始人李国庆正式宣告开启人生新篇章——二次创业。他创立了全新品牌“李享生活”,将目光聚焦于线上高端会员店领域,为追求品质生活的消费者打造专属购物体验。李国庆在发布视频时慷慨激昂地表示,新公司将以“品质生活圈层”为核心定位,严控商品加价率,确保在1.25倍以内,力求为会员提供高性价比的优质商品。更为独特的是,首...
15:33
2025年12月15日,科技圈传来重磅消息据资深数码博主独家爆料,苹果首款折叠iPhone将迎来颠覆性设计革新,首次采用侧边Touch ID指纹识别方案,彻底告别3D人脸和超声波指纹技术。这一大胆调整的核心目标在于进一步压缩机身厚度,打造前所未有的轻薄折叠体验。 据悉该机将配备业界领先的强力铰链结构,确保多次开合依然稳固如初。工程机内部配置了7.58英寸...
15:33
12月12日,Canva可画在中国举办了一场盛大的年度分享会,不仅发布了备受期待的《Canva可画中国视觉表达洞察》报告,更正式推出了革命性的Canva AI功能。这场专为中国市场量身打造的盛会,旨在通过技术创新进一步释放视觉创作的无限潜能,显著提升用户的创作效率。 根据最新发布的《Canva可画中国视觉表达洞察》报告,中国创作者正在悄然掀起一场情感表达...
15:33
2025年12月15日,专注于全球海洋水下观测领域的创新企业卫澜深海成功斩获千万元天使轮融资,投资方由知名的天使投资机构英诺天使基金与前沿科技孵化平台奇绩创坛联合领投。这一重要里程碑不仅彰显了资本市场对卫澜深海技术实力的高度认可,更预示着其在海洋科技领域的巨大潜力 作为海洋观测领域的先行者,卫澜深海的核心产品——分布式深远海水下观测节点,凭借其革命性的技...
15:02
2025年,全球AI算力军备竞赛已进入白热化阶段,一家名不见经传的荷兰公司Nebius却以雷霆之势震惊四座,接连斩获微软194亿美元、Meta 30亿美元的超级订单。短短三个月内,这家“新锐”企业营收同比暴增355%,股价飙升210%,更豪言到2026年建成2.5GW算力集群——相当于部署100万至125万块英伟达GPU,年耗电量将逼近三峡大坝发电量的五分之...