在人工智能飞速发展的今天,算力或许不是最大的瓶颈,而是高质量数据标注的稀缺性。OpenAI凭借精准标注的数据,让ChatGPT一跃成为大模型竞赛的领头羊,但代价却是被媒体口诛笔伐的道德争议。非洲廉价劳动力的使用,不仅引发了伦理争议,更让参与标注的工人在有毒内容中承受着难以磨灭的心理创伤。时代周刊和卫报的报道,将这一行业潜藏的问题暴露无遗。是时候寻找新的解决方案了,谷歌、Anthropic等科技巨头纷纷投身数据标注自动化,而一家初创公司refuel,则带来了革命性的开源工具——Autolabel。

Autolabel:用AI标注数据,效率提升100倍

这款工具让用户能够借助主流的LLM(如ChatGPT、Claude等)对数据集进行高效标注。refuel宣称,相较于传统人工标注,Autolabel的效率最高可达100倍,而成本仅为人工的1/7。即便使用成本最高的GPT-4,其标注成本也远低于人工,若采用更经济的模型,成本还能进一步压缩。Autolabel+LLM的标注方式,让效率得到了质的飞跃。

在LLM标注质量评估方面,Autolabel开发者创立了基准测试,通过对比不同LLM的标注结果与标准答案,来衡量标注质量。采用GPT-4进行标注时,准确率高达88.4%,超越了人类标注的86.2%。其他更便宜的模型也表现出色,开发者建议在简单任务中使用经济模型,复杂任务则交给GPT-4,这样既能节省成本,又能保证标注质量。

Autolabel功能丰富,支持自然语言处理项目中的分类、命名实体识别、实体匹配和问答等任务。它兼容OpenAI、Anthropic和Google Palm等主流LLM提供商,并通过HuggingFace支持开源和私有模型。用户可以尝试不同的提示策略,如少样本和思维链提示,只需简单更新配置文件,就能轻松评估标签置信度。Autolabel免去了编写复杂指南和等待外部团队的繁琐流程,用户可在几分钟内开始标注数据。对于数据隐私要求极高的用户,Autolabel提供了低成本、低门槛的解决方案。

如何用AI进行评论有害性标注?

无论是律所使用GPT-4分类法律文档,还是保险公司用私有模型处理敏感医疗数据,Autolabel都能高效胜任。以社交媒体内容审核团队为例,他们需要训练分类器来判断评论是否有毒。没有Autolabel,收集几千个示例并人工标注可能需要几周时间;而使用Autolabel,只需几分钟就能完成标注。

Autolabel安装

首先安装必要的库:pip install ‘refuel-autolabel[openai]’。然后设置OpenAI密钥为环境变量。下载并查看数据集,使用Civil Comments数据集,运行from autolabel import get_data; get_data(‘civil_comments’)即可下载。标注例子分为三个步骤:首先指定标签配置并创建LabelingAgent;接着运行agent.plan,使用指定LLM对数据集进行标注;最后使用agent.run运行标签实验。

1. 简单标签指南定义

定义配置文件如下:config={“task_name”:”ToxicCommentClassification”,”task_type”:”classification”,”dataset”:{“label_column”:”label”},”model”:{“provider”:”openai”,”name”:”gpt-3.5-turbo”},”prompt”:{“task_guidelines”:”Doestheprovidedcommentcontain’toxic’language?Saytoxicornottoxic.”,”labels”:[“toxic”,”nottoxic”],”example_template”:”Input:{example}\nOutput:{label}”}。创建自定义配置可使用CLI或编写配置文件。预演时,运行from autolabel import LabelingAgent, AutolabelDataset; agent=LabelingAgent(config); ds=AutolabelDataset(‘test.csv’, config=config); agent.plan(ds),输出将显示预估成本、示例数量和每例平均成本。最后进行数据标注,运行ds=agent.run(ds, max_items=100),输出结果将显示支持度、阈值、准确率和完成率。

技术细节:标注质量Benchmark介绍

Autolabel的基准测试涵盖了多个数据集,使用了多种LLM进行评估。评估标准包括标签质量、周转时间和生成每个标签的成本。数据集分为种子集和测试集,种子集用于置信度校准和提示任务,测试集用于评估和报告结果。人工标注由第三方平台完成,分为三个阶段:提供标注指南、评估种子集并修正错误、解释标签指南问题并标注测试集。

结果:标签质量

标签质量通过生成标签与基准真相的一致性来衡量。对于SQuAD数据集,使用F1分数;对于其他数据集,使用精确匹配。结果显示,最先进的LLM在文本数据集标注上已达到甚至超越了熟练人工的水平,大大简化了数据标注流程。GPT-4在多个数据集中的标签质量优于人类,其他LLM的表现也接近80%,但价格仅为GPT-4的十分之一。评估LLM时存在数据泄露风险,研究人员通过集合改进将一致性提高到95%以上。

置信度估计

为了解决LLM的幻觉问题,研究人员采用token级日志概率平均化来估计标签置信度。对于提供对数概率的LLM,使用这些概率估计置信度;对于其他LLM,则使用FLAN T5XXL模型进行置信度估计。通过校准步骤,研究人员为LLM确定工作点,拒绝低于阈值的标签。在95%的质量阈值下,GPT-4可标注约77%的数据集。使用置信度估算方法,并将置信度阈值设定为95%,得到以下数据集和LLM的完成率:95%与基准真相一致的完成率。在所有数据集中,GPT-4的平均完成率最高,多个模型也实现了很好的性能,价格却远低于GPT-4。

未来更新的方向

开发者承诺在未来几个月中,向Autolabel添加更多功能:支持更多LLM进行数据标注,支持更多标注任务(如总结),支持更多输入数据类型和更高的LLM输出稳健性,让用户能够试验多个LLM和不同提示的工作流程。参考资料:https://www.refuel.ai/blog-posts/introducing-autolabel

最新快讯

2025年08月13日

19:12
即时零售正以惊人的速度重塑着现代人的生活节奏。只需一部手机轻轻一点,无论是新鲜的肉蛋果蔬,还是畅爽的酒水饮料,抑或是母婴玩具等日常所需,都能在短时间内实现"闪购即达",万物到家已成为人们习以为常的生活方式。这一趋势也得到了市场数据的强力印证:2024年中国即时零售市场规模增速高达26.2%,预计全年规模将突破1.5万亿元大关。 面对这个潜力无限的万亿级市场,...
19:12
摘要当上下文窗口规模、成本效益与数学运算能力成为关键决策要素时,如何迅速锁定最适配的模型成为企业面临的难题。本文创新性地提出基于12项核心指标的三层漏斗筛选法,通过系统化分析对比两类主流大模型在真实业务场景中的适配性,为企业提供高效选型解决方案。 一、参数对比为何成为技术团队的效率瓶颈?2025年全球可调用大模型数量已突破300个,但选型过程面临三大核心挑战...
19:12
微新创想8月13日讯 格力电器公众号"董明珠健康家"于今日下午15:19分完成更名,正式更名为"格力好物指南"。通过梳理该账号的历史名称记录可以发现,其发展轨迹颇具看点:2024年3月11日,格力电器公众号获得"认证格力董明珠店"资质;2025年4月27日,该账号更名为"认证董明珠健康家";直至今日(8月13日)完成最终更名。 回顾"董明珠健康家"这一名称的...
19:11
8月13日,赛微微电正式发布重要公告,披露了股东武岳峰投资及其一致行动人未来减持公司股份的计划。根据公告内容,相关股东计划在公告发布后15个交易日届满后的3个月内,通过集中竞价方式减持公司股份,减持数量上限为不超过86.14万股,占公司总股本的比例为1%。此次减持操作将采用集中竞价交易方式,具体实施时间将严格控制在公告发布后的3个月期限内。此次减持计划的披露...
19:11
威派格公司于8月13日发布公告,宣布其股东盈科盛达及其一致行动人盈科盛隆、盈科盛通因临时资金需求,将启动减持计划。根据公告内容,此次减持将在公告发布后的3个交易日内开始,并持续不超过3个月的时间。减持方式将采用集中竞价、大宗交易或两者相结合的方式进行,减持总股份数量上限设定为4286200股。 此次减持计划旨在满足股东方的资金周转需求,属于正常的市场操作行为...
19:11
2025年上半年,哈铁科技交出亮眼业绩答卷,营业收入高达3.35亿元,同比增长22.54%,展现出强劲的增长势头。更令人振奋的是,归属于上市公司股东的净利润达到3349.65万元,同比增长幅度高达55.61%,盈利能力显著提升。为回馈广大股东长期以来的支持与信任,公司宣布将实施现金分红方案,每10股派发现金红利0.3元(含税),让股东共享发展成果。此次业绩的...
19:11
财联社8月13日讯 根据印度国家证券存管有限公司NSDL最新披露的数据,全球基金在8月12日的交易中出现了显著的净卖出行为,涉及价值高达265亿卢比的印度股票。这一数据直观地反映了国际投资者对印度股市的短期减持情绪,可能预示着市场情绪的微妙变化。 值得注意的是,这一大规模的资金流出发生在印度股市经历了一段相对稳定的时期。分析人士指出,国际投资者在8月12日...
19:11
富国银行近日发布重要市场动态,正式将CoreWeave的目标价从60美元大幅上调至105美元,这一举措彰显了该行对CoreWeave未来增长潜力的强烈信心。在当前复杂多变的全球经济环境下,此举不仅体现了富国银行对CoreWeave业务模式的深度认可,更预示着该行业在技术创新与市场拓展方面将迎来新的发展机遇。根据富国银行最新研报显示,此次目标价上调基于Core...
19:11
2025年8月13日,Susquehanna投资机构正式宣布将戴尔科技(Dell Technologies)的股票目标价从105美元上调至120美元,这一调整幅度高达15美元,彰显了该机构对戴尔科技未来业绩增长的强烈信心。Susquehanna在最新研报中明确指出,此举基于对戴尔科技在云计算、人工智能及企业级解决方案等领域持续创新能力的深入评估,认为其技术布...
19:11
8月23日至24日,备受瞩目的全国性人形机器人赛事——第二十七届中国机器人及人工智能大赛人形机器人专项赛全国决赛即将在合肥盛大启幕。作为国内首个全尺寸人形机器人竞技平台,本次大赛由国际先进技术应用推进中心(合肥)主办,以"创新驱动未来"为核心宗旨,全面聚焦人形机器人的前沿技术研发与实际应用场景落地。赛事组委会透露,本次决赛将吸引全国范围内数十支顶尖高校、科研...
19:11
2025年8月13日,北京时间,加密货币市场迎来历史性转折点。比特币市值占比首次跌破60%,标志着这一数字资产的主导地位自2月1日以来出现显著下滑。当前比特币市值为2.39万亿美元,仅占整个加密货币市场总市值的59.75%。值得注意的是,整个加密市场总市值已强势突破4万亿美元大关,创下有史以来的最高纪录,显示出市场的整体繁荣态势。 在这一轮市场波动中,以太坊...
19:11
2025年8月13日,海创药业正式发布其2025年半年财务报告,数据显示公司上半年营业收入高达1316.72万元,相较于去年同期实现了惊人的119倍增长。然而,这份亮眼的成绩单背后却隐藏着巨大的经营压力,公司归属于上市公司股东的净利润为-6185.32万元,呈现巨额亏损态势。面对这一看似矛盾的经营数据,海创药业在报告中明确指出,亏损主要源于新药研发及市场推广...