在人工智能飞速发展的今天,算力或许不是最大的瓶颈,而是高质量数据标注的稀缺性。OpenAI凭借精准标注的数据,让ChatGPT一跃成为大模型竞赛的领头羊,但代价却是被媒体口诛笔伐的道德争议。非洲廉价劳动力的使用,不仅引发了伦理争议,更让参与标注的工人在有毒内容中承受着难以磨灭的心理创伤。时代周刊和卫报的报道,将这一行业潜藏的问题暴露无遗。是时候寻找新的解决方案了,谷歌、Anthropic等科技巨头纷纷投身数据标注自动化,而一家初创公司refuel,则带来了革命性的开源工具——Autolabel。

Autolabel:用AI标注数据,效率提升100倍

这款工具让用户能够借助主流的LLM(如ChatGPT、Claude等)对数据集进行高效标注。refuel宣称,相较于传统人工标注,Autolabel的效率最高可达100倍,而成本仅为人工的1/7。即便使用成本最高的GPT-4,其标注成本也远低于人工,若采用更经济的模型,成本还能进一步压缩。Autolabel+LLM的标注方式,让效率得到了质的飞跃。

在LLM标注质量评估方面,Autolabel开发者创立了基准测试,通过对比不同LLM的标注结果与标准答案,来衡量标注质量。采用GPT-4进行标注时,准确率高达88.4%,超越了人类标注的86.2%。其他更便宜的模型也表现出色,开发者建议在简单任务中使用经济模型,复杂任务则交给GPT-4,这样既能节省成本,又能保证标注质量。

Autolabel功能丰富,支持自然语言处理项目中的分类、命名实体识别、实体匹配和问答等任务。它兼容OpenAI、Anthropic和Google Palm等主流LLM提供商,并通过HuggingFace支持开源和私有模型。用户可以尝试不同的提示策略,如少样本和思维链提示,只需简单更新配置文件,就能轻松评估标签置信度。Autolabel免去了编写复杂指南和等待外部团队的繁琐流程,用户可在几分钟内开始标注数据。对于数据隐私要求极高的用户,Autolabel提供了低成本、低门槛的解决方案。

如何用AI进行评论有害性标注?

无论是律所使用GPT-4分类法律文档,还是保险公司用私有模型处理敏感医疗数据,Autolabel都能高效胜任。以社交媒体内容审核团队为例,他们需要训练分类器来判断评论是否有毒。没有Autolabel,收集几千个示例并人工标注可能需要几周时间;而使用Autolabel,只需几分钟就能完成标注。

Autolabel安装

首先安装必要的库:pip install ‘refuel-autolabel[openai]’。然后设置OpenAI密钥为环境变量。下载并查看数据集,使用Civil Comments数据集,运行from autolabel import get_data; get_data(‘civil_comments’)即可下载。标注例子分为三个步骤:首先指定标签配置并创建LabelingAgent;接着运行agent.plan,使用指定LLM对数据集进行标注;最后使用agent.run运行标签实验。

1. 简单标签指南定义

定义配置文件如下:config={“task_name”:”ToxicCommentClassification”,”task_type”:”classification”,”dataset”:{“label_column”:”label”},”model”:{“provider”:”openai”,”name”:”gpt-3.5-turbo”},”prompt”:{“task_guidelines”:”Doestheprovidedcommentcontain’toxic’language?Saytoxicornottoxic.”,”labels”:[“toxic”,”nottoxic”],”example_template”:”Input:{example}\nOutput:{label}”}。创建自定义配置可使用CLI或编写配置文件。预演时,运行from autolabel import LabelingAgent, AutolabelDataset; agent=LabelingAgent(config); ds=AutolabelDataset(‘test.csv’, config=config); agent.plan(ds),输出将显示预估成本、示例数量和每例平均成本。最后进行数据标注,运行ds=agent.run(ds, max_items=100),输出结果将显示支持度、阈值、准确率和完成率。

技术细节:标注质量Benchmark介绍

Autolabel的基准测试涵盖了多个数据集,使用了多种LLM进行评估。评估标准包括标签质量、周转时间和生成每个标签的成本。数据集分为种子集和测试集,种子集用于置信度校准和提示任务,测试集用于评估和报告结果。人工标注由第三方平台完成,分为三个阶段:提供标注指南、评估种子集并修正错误、解释标签指南问题并标注测试集。

结果:标签质量

标签质量通过生成标签与基准真相的一致性来衡量。对于SQuAD数据集,使用F1分数;对于其他数据集,使用精确匹配。结果显示,最先进的LLM在文本数据集标注上已达到甚至超越了熟练人工的水平,大大简化了数据标注流程。GPT-4在多个数据集中的标签质量优于人类,其他LLM的表现也接近80%,但价格仅为GPT-4的十分之一。评估LLM时存在数据泄露风险,研究人员通过集合改进将一致性提高到95%以上。

置信度估计

为了解决LLM的幻觉问题,研究人员采用token级日志概率平均化来估计标签置信度。对于提供对数概率的LLM,使用这些概率估计置信度;对于其他LLM,则使用FLAN T5XXL模型进行置信度估计。通过校准步骤,研究人员为LLM确定工作点,拒绝低于阈值的标签。在95%的质量阈值下,GPT-4可标注约77%的数据集。使用置信度估算方法,并将置信度阈值设定为95%,得到以下数据集和LLM的完成率:95%与基准真相一致的完成率。在所有数据集中,GPT-4的平均完成率最高,多个模型也实现了很好的性能,价格却远低于GPT-4。

未来更新的方向

开发者承诺在未来几个月中,向Autolabel添加更多功能:支持更多LLM进行数据标注,支持更多标注任务(如总结),支持更多输入数据类型和更高的LLM输出稳健性,让用户能够试验多个LLM和不同提示的工作流程。参考资料:https://www.refuel.ai/blog-posts/introducing-autolabel

最新快讯

2026年02月11日

19:08
微新创想:2026年2月11日 欧盟委员会宣布多项打击网络暴力新举措 欧盟委员会在2026年2月11日发布了一系列针对网络暴力的新政策。这些措施旨在解决影响欧盟六分之一儿童的网络暴力问题 并有效降低其对青少年心理健康造成的潜在威胁 新政策将加强《数字服务法》的实施力度 要求各大网络平台切实履行对未成年人的保护责任。其中包括提供一键屏蔽和静音功能 以及禁止在未...
19:08
微新创想:2026年2月11日,阿里巴巴在钉钉App 8.2.10版本中正式推出群聊专属AI智能体“AI小钉”。这一创新功能标志着钉钉在企业协作与智能化服务领域的进一步突破。 该功能面向内部群开放,新创建的群默认启用AI小钉,而已有的群则需要由群主或管理员在设置中手动添加配置。用户只需在群聊中@AI小钉,即可通过自然语言进行交互,实现多种智能化操作。 用户可...
18:38
微新创想:2026年2月11日,金海通(603061.SH)宣布拟在上海市青浦区华新镇投资建设“上海澜博半导体设备制造中心建设项目”,总投资额不超过4亿元。项目将建设总面积不超过5.5万平方米的生产研发综合基地,涵盖生产车间、综合办公楼及配套建筑,并购置先进设备。此举系公司基于战略发展与业务布局作出的审慎决策,旨在打造集生产、研发与办公于一体的半导体设备运营...
18:38
微新创想:2026年2月11日,立昂技术发布公告,其全资子公司立昂云数据(四川)有限公司拟以自有资金2120万元,认缴深圳星连荣基创业投资合伙企业(有限合伙)9.9995%的份额。该基金的主要投资方向为北京生数科技有限公司。此次投资标志着立昂技术在人工智能领域的进一步布局,有助于加强公司在该领域的技术协同能力,并拓展其产业生态。 此次投资是立昂技术推动战略转...
18:38
微新创想:2025年全球电动汽车市场迎来显著增长,各国产量数据展现不同发展态势。德国在这一年生产了122万台电动汽车,相比2024年实现了15%的同比增长,稳居全球第二的位置。与此同时,中国以1610万台的产量遥遥领先,成为全球最大的电动汽车生产国。美国则以104万台的产量位列第三,显示出其在新能源汽车领域的持续发展。 德国全年新车总产量达到415万台,其中...
18:38
微新创想:截至2月11日(农历腊月二十四,南方小年)全国铁路春运车票累计发售超过2亿张 全国铁路部门在春运期间持续加大运力投放力度 当日计划加开旅客列车1544列以满足旅客出行需求 2月10日全国铁路发送旅客人数达到1398.0万人次 与去年同期相比旅客发送量增长了4.9个百分点 铁路部门通过科学调度和严密组织确保运输安全有序进行 春运运输工作整体保持平稳态...
18:38
微新创想:2026年2月11日,中国平安人寿保险股份有限公司完成工商变更,注册资本由338亿元增至约360.03亿元,增幅约7%。此次增资由股东方共同推动,旨在增强资本实力与偿付能力。 公司成立于2002年12月,注册地为深圳,法定代表人为杨铮。作为中国平安集团旗下的重要子公司,中国平安人寿一直致力于提供全面的人身保险服务。 此次注册资本的增加不仅反映了股东...
18:38
微新创想:2026年2月11日,新锐股份发布公告,拟以不超过7亿元人民币的价格收购新乡市慧联电子科技股份有限公司70%的股权。此次交易标志着新锐股份在拓展精密制造领域的重要一步。 慧联电子是一家专注于PCB印制电路板专用钻针、铣刀等电子工模具的高新技术企业。其产品广泛应用于电子制造行业,具有较高的技术含量和市场竞争力。 通过此次收购,新锐股份将获得慧联电子的...
18:38
微新创想:2月7日,千问日活跃用户数达7352万, surpass元宝(1828万),接近豆包(7871万)。数据显示,其App自2月5日起已连续6天位列苹果App Store中国区免费榜第一。这一成绩标志着千问在用户中的受欢迎程度持续攀升,成为当前市场上最具竞争力的AI助手之一。 该增长发生于2026年春节假期后返工首周,反映用户对AI助手工具的高频使用需...
18:38
微新创想:2026年2月,武汉创现科技正式获得光谷产投、丹麓资本与瑞江资本联合发起的天使轮融资。此次融资标志着公司在智能硬件领域迈出了坚实的一步,也为其在家用机器人赛道的发展提供了强有力的支持。 公司专注于家用机器人领域,尤其在软表面自动清洁技术方面取得了重要突破。其主打产品是智能清洁机器人,能够一键启动,在床面、沙发等软质表面上自主运行,有效解决传统手动除...
18:38
微新创想:2月11日,镇江汉骑科技有限公司在江苏镇江正式注册成立。公司法定代表人为孙可青,注册资本达500万美元,由美团旗下Xigua Limited全资控股。这一新公司的设立标志着美团在区域技术研发和数据服务领域迈出了重要一步。 微新创想:镇江汉骑科技的经营范围广泛,涵盖软件开发、网络与信息安全软件开发、信息技术及信息咨询服务、互联网数据服务等多个方面。通...