在人工智能飞速发展的今天,算力或许不是最大的瓶颈,而是高质量数据标注的稀缺性。OpenAI凭借精准标注的数据,让ChatGPT一跃成为大模型竞赛的领头羊,但代价却是被媒体口诛笔伐的道德争议。非洲廉价劳动力的使用,不仅引发了伦理争议,更让参与标注的工人在有毒内容中承受着难以磨灭的心理创伤。时代周刊和卫报的报道,将这一行业潜藏的问题暴露无遗。是时候寻找新的解决方案了,谷歌、Anthropic等科技巨头纷纷投身数据标注自动化,而一家初创公司refuel,则带来了革命性的开源工具——Autolabel。

Autolabel:用AI标注数据,效率提升100倍

这款工具让用户能够借助主流的LLM(如ChatGPT、Claude等)对数据集进行高效标注。refuel宣称,相较于传统人工标注,Autolabel的效率最高可达100倍,而成本仅为人工的1/7。即便使用成本最高的GPT-4,其标注成本也远低于人工,若采用更经济的模型,成本还能进一步压缩。Autolabel+LLM的标注方式,让效率得到了质的飞跃。

在LLM标注质量评估方面,Autolabel开发者创立了基准测试,通过对比不同LLM的标注结果与标准答案,来衡量标注质量。采用GPT-4进行标注时,准确率高达88.4%,超越了人类标注的86.2%。其他更便宜的模型也表现出色,开发者建议在简单任务中使用经济模型,复杂任务则交给GPT-4,这样既能节省成本,又能保证标注质量。

Autolabel功能丰富,支持自然语言处理项目中的分类、命名实体识别、实体匹配和问答等任务。它兼容OpenAI、Anthropic和Google Palm等主流LLM提供商,并通过HuggingFace支持开源和私有模型。用户可以尝试不同的提示策略,如少样本和思维链提示,只需简单更新配置文件,就能轻松评估标签置信度。Autolabel免去了编写复杂指南和等待外部团队的繁琐流程,用户可在几分钟内开始标注数据。对于数据隐私要求极高的用户,Autolabel提供了低成本、低门槛的解决方案。

如何用AI进行评论有害性标注?

无论是律所使用GPT-4分类法律文档,还是保险公司用私有模型处理敏感医疗数据,Autolabel都能高效胜任。以社交媒体内容审核团队为例,他们需要训练分类器来判断评论是否有毒。没有Autolabel,收集几千个示例并人工标注可能需要几周时间;而使用Autolabel,只需几分钟就能完成标注。

Autolabel安装

首先安装必要的库:pip install ‘refuel-autolabel[openai]’。然后设置OpenAI密钥为环境变量。下载并查看数据集,使用Civil Comments数据集,运行from autolabel import get_data; get_data(‘civil_comments’)即可下载。标注例子分为三个步骤:首先指定标签配置并创建LabelingAgent;接着运行agent.plan,使用指定LLM对数据集进行标注;最后使用agent.run运行标签实验。

1. 简单标签指南定义

定义配置文件如下:config={“task_name”:”ToxicCommentClassification”,”task_type”:”classification”,”dataset”:{“label_column”:”label”},”model”:{“provider”:”openai”,”name”:”gpt-3.5-turbo”},”prompt”:{“task_guidelines”:”Doestheprovidedcommentcontain’toxic’language?Saytoxicornottoxic.”,”labels”:[“toxic”,”nottoxic”],”example_template”:”Input:{example}\nOutput:{label}”}。创建自定义配置可使用CLI或编写配置文件。预演时,运行from autolabel import LabelingAgent, AutolabelDataset; agent=LabelingAgent(config); ds=AutolabelDataset(‘test.csv’, config=config); agent.plan(ds),输出将显示预估成本、示例数量和每例平均成本。最后进行数据标注,运行ds=agent.run(ds, max_items=100),输出结果将显示支持度、阈值、准确率和完成率。

技术细节:标注质量Benchmark介绍

Autolabel的基准测试涵盖了多个数据集,使用了多种LLM进行评估。评估标准包括标签质量、周转时间和生成每个标签的成本。数据集分为种子集和测试集,种子集用于置信度校准和提示任务,测试集用于评估和报告结果。人工标注由第三方平台完成,分为三个阶段:提供标注指南、评估种子集并修正错误、解释标签指南问题并标注测试集。

结果:标签质量

标签质量通过生成标签与基准真相的一致性来衡量。对于SQuAD数据集,使用F1分数;对于其他数据集,使用精确匹配。结果显示,最先进的LLM在文本数据集标注上已达到甚至超越了熟练人工的水平,大大简化了数据标注流程。GPT-4在多个数据集中的标签质量优于人类,其他LLM的表现也接近80%,但价格仅为GPT-4的十分之一。评估LLM时存在数据泄露风险,研究人员通过集合改进将一致性提高到95%以上。

置信度估计

为了解决LLM的幻觉问题,研究人员采用token级日志概率平均化来估计标签置信度。对于提供对数概率的LLM,使用这些概率估计置信度;对于其他LLM,则使用FLAN T5XXL模型进行置信度估计。通过校准步骤,研究人员为LLM确定工作点,拒绝低于阈值的标签。在95%的质量阈值下,GPT-4可标注约77%的数据集。使用置信度估算方法,并将置信度阈值设定为95%,得到以下数据集和LLM的完成率:95%与基准真相一致的完成率。在所有数据集中,GPT-4的平均完成率最高,多个模型也实现了很好的性能,价格却远低于GPT-4。

未来更新的方向

开发者承诺在未来几个月中,向Autolabel添加更多功能:支持更多LLM进行数据标注,支持更多标注任务(如总结),支持更多输入数据类型和更高的LLM输出稳健性,让用户能够试验多个LLM和不同提示的工作流程。参考资料:https://www.refuel.ai/blog-posts/introducing-autolabel

最新快讯

2025年12月16日

09:14
微新创想12月15日重磅消息,长期以来手机电池容量始终徘徊在5000-6000mAh的瓶颈期,用户中度使用仅能勉强支撑一天,充电宝也因此成为许多人出门在外的必备装备。然而进入2025年,手机厂商们纷纷发力,这一行业困局被彻底打破。荣耀率先在自家的荣耀Power系列上实现了8000mAh的突破,将手机电池容量带入全新的8000mAh时代,为用户带来了前所未有的...
09:14
日本航天企业SPACE ONE即将于2025年2月25日迎来其小型火箭“KAIROS”3号机的发射任务。这一备受瞩目的航天事件定于当天上午11时准时启程,发射地点选在位于和歌山县串本町的“Space Port纪伊”发射场。此次发射不仅标志着SPACE ONE的持续努力,也承载着业界对小型卫星发射技术的热切期待。 作为一家成立于2018年的新兴航天企业,SPA...
09:14
2025年12月15日,全球电脑市场迎来重大消息,台湾两大电脑巨头宏碁与华硕正式宣布将全面上调PC产品价格。这一决定背后,是存储芯片持续缺货引发的巨大成本压力。作为全球笔记本电脑市场的领军企业,宏碁与华硕均面临供应链困境,不得不通过调整售价来缓解财务压力。 此次价格调整的核心原因在于全球存储芯片供应的严重短缺。宏碁董事长陈俊圣在内部会议上明确指出,由于上游原...
09:14
2025年12月16日,华泰证券发布了一份深度研报,揭示了全固态电池技术正迎来历史性发展机遇。报告指出,凭借其卓越的安全性表现和远超传统锂电池的能量密度优势,全固态电池正加速从实验室走向产业化应用。这一技术突破不仅将重塑新能源汽车和储能产业的格局,更标志着全球能源存储技术迈入全新纪元。 当前,全固态电池产业的发展重心已从基础材料研究转向生产工程领域。在这一关...
09:14
近日,OpenAI 首席传播官汉娜・王正式宣布,她将于明年一月告别这家科技巨头,开启人生新篇章。这一消息由 OpenAI 官方发言人凯拉・伍德确认,并引发业界广泛关注。汉娜・王在任期间,以其卓越的沟通才能为 OpenAI 塑造了积极正面的公众形象,显著提升了公司的品牌影响力与行业声誉。 OpenAI 首席执行官山姆・阿尔特曼与应用部门首席执行官菲杰・西莫联合...
09:14
Chai Discovery 作为一家专注于药物研发领域的生物科技初创企业,近日成功斩获1.3亿美元B轮融资,公司估值飙升至令人瞩目的13亿美元。此次融资由知名风投机构General Catalyst和Oak HC/FT联合领投,Menlo Ventures、OpenAI、Dimension、Thrive Capital、Neo、Yosemite Ventu...
09:14
OpenAI于12月15日正式官宣,任命前谷歌企业发展主管Albert Lee担任公司企业发展副总裁一职。Lee将于12月16日正式履新,直接向首席财务官Sarah Friar汇报工作,其核心职责将聚焦于推动OpenAI在战略合作、投资布局及商业生态拓展等关键领域实现突破性进展。 Albert Lee在谷歌任职期间长期主导企业级合作与战略投资事务,积累了丰富...
09:14
OpenAI 在其十周年庆典之际发布了备受瞩目的 GPT-5.2 模型,这一全新系列在专业领域引发了巨大反响。根据官方公布的数据,GPT-5.2 在多项权威基准测试中取得了令人瞩目的成绩,甚至在某些专业领域超越了人类专家的表现,成为迄今为止在专业应用中最出色的 AI 模型之一。OpenAI 详细介绍称,GPT-5.2 在多个技术领域实现了突破性进展。以 GD...
09:14
人工智能领域的领军企业OpenAI近日宣布了一项重要的人事任命,前谷歌高管Albert Lee将出任企业发展业务负责人一职。Lee在谷歌云和Google DeepMind的发展业务中积累了丰富的经验,并主导了多项引人注目的收购交易,其中包括今年3月以320亿美元收购云安全初创公司Wiz的里程碑式交易。这一战略任命标志着OpenAI将在战略投资和并购领域加速布...
09:14
知识共享组织(Creative Commons,CC)近期对"付费爬取"(Pay-for-Crawl)技术表达了审慎的支持态度。这一创新系统通过自动支付报酬的方式,允许机器(如人工智能网络爬虫)在访问网站内容时进行数据采集。CC今年早些时候推出的"开放人工智能生态系统"框架,旨在为控制数据的公司与利用数据进行训练的AI提供商之间,搭建共享数据集的法律和技术桥...
09:14
迪士尼首席执行官鲍勃·艾格近日向CNBC透露了公司与OpenAI签署的三年期授权合作协议的细节:尽管协议为期三年,但针对迪士尼旗下核心IP的独家授权期限仅为一年。这一合作于上周正式宣布,迪士尼将漫威、皮克斯、《星球大战》等200多个标志性角色的海量内容授权给OpenAI的Sora视频生成器使用。这意味着OpenAI在一年内将成为唯一获得合法授权的AI公司,允...
09:14
路透社最新消息显示,英伟达于本周一正式宣布完成对人工智能软件公司 SchedMD 的战略性收购。这一举措标志着英伟达在开源技术领域的又一重要布局,进一步巩固了其在全球 AI 生态系统中的领导地位。作为全球知名的图形处理器巨头,英伟达不仅以其卓越的高速芯片闻名于世,更在 AI 领域展现出惊人的战略眼光,积极构建完善的 AI 技术生态。 英伟达通过开源模式,向业...