在人工智能飞速发展的今天,算力或许不是最大的瓶颈,而是高质量数据标注的稀缺性。OpenAI凭借精准标注的数据,让ChatGPT一跃成为大模型竞赛的领头羊,但代价却是被媒体口诛笔伐的道德争议。非洲廉价劳动力的使用,不仅引发了伦理争议,更让参与标注的工人在有毒内容中承受着难以磨灭的心理创伤。时代周刊和卫报的报道,将这一行业潜藏的问题暴露无遗。是时候寻找新的解决方案了,谷歌、Anthropic等科技巨头纷纷投身数据标注自动化,而一家初创公司refuel,则带来了革命性的开源工具——Autolabel。

Autolabel:用AI标注数据,效率提升100倍

这款工具让用户能够借助主流的LLM(如ChatGPT、Claude等)对数据集进行高效标注。refuel宣称,相较于传统人工标注,Autolabel的效率最高可达100倍,而成本仅为人工的1/7。即便使用成本最高的GPT-4,其标注成本也远低于人工,若采用更经济的模型,成本还能进一步压缩。Autolabel+LLM的标注方式,让效率得到了质的飞跃。

在LLM标注质量评估方面,Autolabel开发者创立了基准测试,通过对比不同LLM的标注结果与标准答案,来衡量标注质量。采用GPT-4进行标注时,准确率高达88.4%,超越了人类标注的86.2%。其他更便宜的模型也表现出色,开发者建议在简单任务中使用经济模型,复杂任务则交给GPT-4,这样既能节省成本,又能保证标注质量。

Autolabel功能丰富,支持自然语言处理项目中的分类、命名实体识别、实体匹配和问答等任务。它兼容OpenAI、Anthropic和Google Palm等主流LLM提供商,并通过HuggingFace支持开源和私有模型。用户可以尝试不同的提示策略,如少样本和思维链提示,只需简单更新配置文件,就能轻松评估标签置信度。Autolabel免去了编写复杂指南和等待外部团队的繁琐流程,用户可在几分钟内开始标注数据。对于数据隐私要求极高的用户,Autolabel提供了低成本、低门槛的解决方案。

如何用AI进行评论有害性标注?

无论是律所使用GPT-4分类法律文档,还是保险公司用私有模型处理敏感医疗数据,Autolabel都能高效胜任。以社交媒体内容审核团队为例,他们需要训练分类器来判断评论是否有毒。没有Autolabel,收集几千个示例并人工标注可能需要几周时间;而使用Autolabel,只需几分钟就能完成标注。

Autolabel安装

首先安装必要的库:pip install ‘refuel-autolabel[openai]’。然后设置OpenAI密钥为环境变量。下载并查看数据集,使用Civil Comments数据集,运行from autolabel import get_data; get_data(‘civil_comments’)即可下载。标注例子分为三个步骤:首先指定标签配置并创建LabelingAgent;接着运行agent.plan,使用指定LLM对数据集进行标注;最后使用agent.run运行标签实验。

1. 简单标签指南定义

定义配置文件如下:config={“task_name”:”ToxicCommentClassification”,”task_type”:”classification”,”dataset”:{“label_column”:”label”},”model”:{“provider”:”openai”,”name”:”gpt-3.5-turbo”},”prompt”:{“task_guidelines”:”Doestheprovidedcommentcontain’toxic’language?Saytoxicornottoxic.”,”labels”:[“toxic”,”nottoxic”],”example_template”:”Input:{example}\nOutput:{label}”}。创建自定义配置可使用CLI或编写配置文件。预演时,运行from autolabel import LabelingAgent, AutolabelDataset; agent=LabelingAgent(config); ds=AutolabelDataset(‘test.csv’, config=config); agent.plan(ds),输出将显示预估成本、示例数量和每例平均成本。最后进行数据标注,运行ds=agent.run(ds, max_items=100),输出结果将显示支持度、阈值、准确率和完成率。

技术细节:标注质量Benchmark介绍

Autolabel的基准测试涵盖了多个数据集,使用了多种LLM进行评估。评估标准包括标签质量、周转时间和生成每个标签的成本。数据集分为种子集和测试集,种子集用于置信度校准和提示任务,测试集用于评估和报告结果。人工标注由第三方平台完成,分为三个阶段:提供标注指南、评估种子集并修正错误、解释标签指南问题并标注测试集。

结果:标签质量

标签质量通过生成标签与基准真相的一致性来衡量。对于SQuAD数据集,使用F1分数;对于其他数据集,使用精确匹配。结果显示,最先进的LLM在文本数据集标注上已达到甚至超越了熟练人工的水平,大大简化了数据标注流程。GPT-4在多个数据集中的标签质量优于人类,其他LLM的表现也接近80%,但价格仅为GPT-4的十分之一。评估LLM时存在数据泄露风险,研究人员通过集合改进将一致性提高到95%以上。

置信度估计

为了解决LLM的幻觉问题,研究人员采用token级日志概率平均化来估计标签置信度。对于提供对数概率的LLM,使用这些概率估计置信度;对于其他LLM,则使用FLAN T5XXL模型进行置信度估计。通过校准步骤,研究人员为LLM确定工作点,拒绝低于阈值的标签。在95%的质量阈值下,GPT-4可标注约77%的数据集。使用置信度估算方法,并将置信度阈值设定为95%,得到以下数据集和LLM的完成率:95%与基准真相一致的完成率。在所有数据集中,GPT-4的平均完成率最高,多个模型也实现了很好的性能,价格却远低于GPT-4。

未来更新的方向

开发者承诺在未来几个月中,向Autolabel添加更多功能:支持更多LLM进行数据标注,支持更多标注任务(如总结),支持更多输入数据类型和更高的LLM输出稳健性,让用户能够试验多个LLM和不同提示的工作流程。参考资料:https://www.refuel.ai/blog-posts/introducing-autolabel

最新快讯

2025年10月31日

10:14
神舟二十一号载人飞船即将于今晚启航,执行一项具有里程碑意义的太空任务。本次任务将首次在轨开展国内啮齿类哺乳动物的空间科学实验,四只经过严格选拔和训练的小鼠将随飞船进入太空,为研究失重和密闭环境对生物行为模式的影响提供宝贵数据。 这四只小鼠被誉为“航天员”,包括两雌两雄,它们从300只候选者中历经60余天的“魔鬼训练”脱颖而出。选拔过程极为严苛,小鼠们需要...
10:14
Super Micro Computer(SMCI)在纽约STAC峰会上与英特尔、美光强强联手,凭借在STAC-M3基准测试中的惊艳表现,成功引爆行业热议。这一备受瞩目的测试专门针对算法交易与回测场景下的时间序列数据库性能,通过Supermicro PB级服务器的强大配置——搭载英特尔至强6处理器、美光9550固态硬盘及DDR5内存,并联合KX Softwa...
10:14
2024年10月至11月期间,全球领先的天文观测网络LIGO-Virgo-KAGRA成功捕捉到两起具有里程碑意义的引力波事件——GW241011和GW241110。这些事件由两个黑洞并合产生,其核心特征在于黑洞成员展现出非同寻常的自旋参数,这一发现颠覆了传统黑洞形成理论的认知。科学家们推测,这些异常自旋的黑洞可能属于"第二代黑洞"的范畴,即由早期宇宙中其他黑...
10:14
2024年10月30日,可孚医疗在一场备受瞩目的机构调研活动中,向外界披露了其在脑机接口领域的重大战略布局。公司代表表示,已成功参与两项具有里程碑意义的投资,标志着可孚医疗在探索前沿医疗科技领域迈出了坚实步伐。 据悉,首项投资聚焦于2024年重点布局的纽聆氪医疗。该公司专注于植入式脑机接口技术的研发,其核心产品线包括仿生眼和仿生耳等创新医疗器械。通过突破性的...
10:14
2025年10月30日,大中矿业在一场备受瞩目的投资者调研会上释放出重要信号,针对当前锂价飙升的市场行情,公司高层明确表示将保持战略定力,不会因此调整位于湖南的锂矿项目建设进度。这一备受关注的项目由大中矿业独立主导,核心内容是打造采选冶一体化的大型现代化生产基地,旨在通过全产业链布局构筑核心竞争力。 公司管理层在会上特别强调,当前锂价上涨虽带来短期利好,但大...
10:14
2025年10月30日,中际旭创在一场备受瞩目的机构电话会议中透露了当前光芯片市场的供需现状。受下游高速光模块需求井喷式增长的强劲拉动,公司正面临光芯片供应日趋紧张的局面。面对这一行业挑战,中际旭创展现出前瞻性的战略布局能力,通过精准的提前规划与果断的下单策略,已成功锁定包括硅光芯片在内的关键原材料资源。令人欣慰的是,公司的主要供应商合作伙伴也展现出高度的责...
10:14
汉森软件近日正式向香港交易所递交招股书,这一重要举措标志着该企业在资本市场的崭新起点。作为一家专注于打印印刷系统集成的研发型企业,汉森软件在图像处理、色彩管理以及可变数据打印系统等关键技术领域拥有深厚的技术积累。公司自主研发的UltraPrint(锐彩)RIP技术,凭借其卓越性能,致力于为各行业提供专业的数字图像输出定制解决方案。通过持续的技术创新与研发投入...
10:14
全球自动驾驶领域的领军企业Momenta近日传来振奋消息,成功完成C+轮系列融资,公司估值强势攀升至60亿美元这一里程碑高度。自2016年创立以来,Momenta始终坚持以数据为核心驱动力,独创性地探索并实践"飞轮"技术路径,在自动驾驶商业化落地方面取得了令人瞩目的进展。公司采取双轨并行的战略布局,一方面着力推进量产级自动驾驶解决方案Mpilot的研发与迭代...
10:14
由著名医药学家袁建栋博士倾力打造的博瑞医药,作为一家备受瞩目的国家级高新技术企业,近日正式敲响港交所上市钟声,向全球资本市场递交了详尽的招股书。这家始终以创新为驱动力的医药企业,深耕于原创性新药研发与高难度仿制药生产领域,矢志不渝地解决临床实践中未被满足的用药需求。凭借其卓越的研发创新能力、全球化的注册申报与商业化布局能力,以及严格遵循国际cGMP标准的生产...
10:14
广东天农食品集团今日正式向香港交易所提交招股书,正式启动上市程序。作为一家全产业链农业企业,天农食品整合了家禽育种、种苗繁育、饲料生产、养殖管理、食品加工与销售等多个环节,成功打造了覆盖“产供销一体化,科工贸联动”的完整产业生态。依托家禽养殖、饲料加工和食品加工三大核心业务板块,公司始终坚持以品质为核心,从源头到终端实施严格的质量管控,并不断优化运营效率。此...
10:14
2025年10月30日,中际旭创在一场备受瞩目的机构电话会议中透露了其光模块业务的重大进展。公司高层明确表示,自今年第三季度起,其核心客户已开始大规模部署1.6T光模块,并且相关订单量呈现持续攀升的态势。这一积极信号预示着中际旭创在高端光模块市场已占据先机。 展望未来,中际旭创对1.6T光模块的市场前景充满信心。公司内部预测显示,在接下来的几个季度内,1.6...
10:14
江苏全盛座舱技术股份有限公司近日传来喜讯,其挂牌申请已顺利获批,正式宣布将于2025年10月31日登陆资本市场,开启发展新篇章。作为汽车座椅骨架系统及零部件领域的深耕者,全盛座舱凭借卓越的技术实力,将精冲、冲压、焊接、成型和装配等先进工艺融为一体,打造出一系列高品质产品。其业务范围广泛覆盖汽车车身冲压件、座椅骨架总成、钢管钢线成型等核心领域,为汽车制造业提供...