在人工智能飞速发展的今天,算力或许不是最大的瓶颈,而是高质量数据标注的稀缺性。OpenAI凭借精准标注的数据,让ChatGPT一跃成为大模型竞赛的领头羊,但代价却是被媒体口诛笔伐的道德争议。非洲廉价劳动力的使用,不仅引发了伦理争议,更让参与标注的工人在有毒内容中承受着难以磨灭的心理创伤。时代周刊和卫报的报道,将这一行业潜藏的问题暴露无遗。是时候寻找新的解决方案了,谷歌、Anthropic等科技巨头纷纷投身数据标注自动化,而一家初创公司refuel,则带来了革命性的开源工具——Autolabel。

Autolabel:用AI标注数据,效率提升100倍

这款工具让用户能够借助主流的LLM(如ChatGPT、Claude等)对数据集进行高效标注。refuel宣称,相较于传统人工标注,Autolabel的效率最高可达100倍,而成本仅为人工的1/7。即便使用成本最高的GPT-4,其标注成本也远低于人工,若采用更经济的模型,成本还能进一步压缩。Autolabel+LLM的标注方式,让效率得到了质的飞跃。

在LLM标注质量评估方面,Autolabel开发者创立了基准测试,通过对比不同LLM的标注结果与标准答案,来衡量标注质量。采用GPT-4进行标注时,准确率高达88.4%,超越了人类标注的86.2%。其他更便宜的模型也表现出色,开发者建议在简单任务中使用经济模型,复杂任务则交给GPT-4,这样既能节省成本,又能保证标注质量。

Autolabel功能丰富,支持自然语言处理项目中的分类、命名实体识别、实体匹配和问答等任务。它兼容OpenAI、Anthropic和Google Palm等主流LLM提供商,并通过HuggingFace支持开源和私有模型。用户可以尝试不同的提示策略,如少样本和思维链提示,只需简单更新配置文件,就能轻松评估标签置信度。Autolabel免去了编写复杂指南和等待外部团队的繁琐流程,用户可在几分钟内开始标注数据。对于数据隐私要求极高的用户,Autolabel提供了低成本、低门槛的解决方案。

如何用AI进行评论有害性标注?

无论是律所使用GPT-4分类法律文档,还是保险公司用私有模型处理敏感医疗数据,Autolabel都能高效胜任。以社交媒体内容审核团队为例,他们需要训练分类器来判断评论是否有毒。没有Autolabel,收集几千个示例并人工标注可能需要几周时间;而使用Autolabel,只需几分钟就能完成标注。

Autolabel安装

首先安装必要的库:pip install ‘refuel-autolabel[openai]’。然后设置OpenAI密钥为环境变量。下载并查看数据集,使用Civil Comments数据集,运行from autolabel import get_data; get_data(‘civil_comments’)即可下载。标注例子分为三个步骤:首先指定标签配置并创建LabelingAgent;接着运行agent.plan,使用指定LLM对数据集进行标注;最后使用agent.run运行标签实验。

1. 简单标签指南定义

定义配置文件如下:config={“task_name”:”ToxicCommentClassification”,”task_type”:”classification”,”dataset”:{“label_column”:”label”},”model”:{“provider”:”openai”,”name”:”gpt-3.5-turbo”},”prompt”:{“task_guidelines”:”Doestheprovidedcommentcontain’toxic’language?Saytoxicornottoxic.”,”labels”:[“toxic”,”nottoxic”],”example_template”:”Input:{example}\nOutput:{label}”}。创建自定义配置可使用CLI或编写配置文件。预演时,运行from autolabel import LabelingAgent, AutolabelDataset; agent=LabelingAgent(config); ds=AutolabelDataset(‘test.csv’, config=config); agent.plan(ds),输出将显示预估成本、示例数量和每例平均成本。最后进行数据标注,运行ds=agent.run(ds, max_items=100),输出结果将显示支持度、阈值、准确率和完成率。

技术细节:标注质量Benchmark介绍

Autolabel的基准测试涵盖了多个数据集,使用了多种LLM进行评估。评估标准包括标签质量、周转时间和生成每个标签的成本。数据集分为种子集和测试集,种子集用于置信度校准和提示任务,测试集用于评估和报告结果。人工标注由第三方平台完成,分为三个阶段:提供标注指南、评估种子集并修正错误、解释标签指南问题并标注测试集。

结果:标签质量

标签质量通过生成标签与基准真相的一致性来衡量。对于SQuAD数据集,使用F1分数;对于其他数据集,使用精确匹配。结果显示,最先进的LLM在文本数据集标注上已达到甚至超越了熟练人工的水平,大大简化了数据标注流程。GPT-4在多个数据集中的标签质量优于人类,其他LLM的表现也接近80%,但价格仅为GPT-4的十分之一。评估LLM时存在数据泄露风险,研究人员通过集合改进将一致性提高到95%以上。

置信度估计

为了解决LLM的幻觉问题,研究人员采用token级日志概率平均化来估计标签置信度。对于提供对数概率的LLM,使用这些概率估计置信度;对于其他LLM,则使用FLAN T5XXL模型进行置信度估计。通过校准步骤,研究人员为LLM确定工作点,拒绝低于阈值的标签。在95%的质量阈值下,GPT-4可标注约77%的数据集。使用置信度估算方法,并将置信度阈值设定为95%,得到以下数据集和LLM的完成率:95%与基准真相一致的完成率。在所有数据集中,GPT-4的平均完成率最高,多个模型也实现了很好的性能,价格却远低于GPT-4。

未来更新的方向

开发者承诺在未来几个月中,向Autolabel添加更多功能:支持更多LLM进行数据标注,支持更多标注任务(如总结),支持更多输入数据类型和更高的LLM输出稳健性,让用户能够试验多个LLM和不同提示的工作流程。参考资料:https://www.refuel.ai/blog-posts/introducing-autolabel

最新快讯

2025年08月14日

09:30
8月12日,山东日照某知名旅游度假区内上演了一场别开生面的赶海活动。工作人员提着满满的水桶,在金色的沙滩上细心抛撒着新鲜的蛤蜊,为即将到来的游客们精心准备了一场特别的赶海体验。据当地居民介绍,游客们可以跟随工作人员的步伐,在沙滩上尽情捡拾这些被特意投放的蛤蜊,感受大自然的馈赠。 由于赶海园游客数量众多,自然生长的野生蛤蜊往往难以满足大家的收获需求。为了确保每...
09:30
8月12日,辽宁葫芦岛上演了一场令人哭笑不得的家庭小插曲。一位72岁的老父亲瞒着女儿偷偷购置了一辆崭新的三轮车,在家中独自进行"首秀",不料因操作不当竟将自家围墙撞得粉碎。据现场监控视频显示,老人驾驶三轮车时速度较快,径直冲向围墙,导致墙体出现严重破损。这一幕被女儿无意中撞见,她看着监控画面时又气又急,忍不住当场落泪。 女儿回忆道,父亲平时就像个"老小孩",...
09:30
在当今社会,追求健康与理想体重的热潮席卷而来,许多控制体重人士将碳水化合物视为导致肥胖和血糖波动的“元凶”,因而对其敬而远之。然而,最新科学研究表明,碳水化合物并非“非黑即白”的敌人,而是存在明显的“好”“坏”之分。只要选对优质的碳水化合物,我们完全可以在享受美味的同时避免体重增加,维持健康的血糖水平。 “好碳水”食物种类丰富多样,为身体提供持久能量和全...
09:30
近日,浙江嘉兴发生一起令人痛心的啤酒瓶爆炸事故,将夏季常见物品的安全隐患再次推向公众视野。54岁的俞大伯在搬运啤酒时遭遇飞溅的玻璃碎片,左眼不幸受到重创,最终导致眼球破裂、玻璃体脱出等九重复合型损伤。目前,俞大伯的视力已近乎完全丧失,仍在医院接受紧急治疗。这起悲剧不仅给受害者家庭带来巨大伤痛,更折射出日常生活中被忽视的安全风险。 每年夏季,类似啤酒瓶爆炸伤人...
09:30
广东省阳春市人民法院近日审结了一起备受关注的赠与合同纠纷案,引发社会对恋爱期间财物往来的法律边界探讨。原告刘某(1992年生)因要求前女友彭某(1996年生)返还恋爱期间18852元转账被法院全部驳回诉求。这起案件因涉及多笔特殊金额转账及一笔标注"彩礼"的款项,成为公众热议的焦点。 据判决书披露,刘某与彭某于2024年5月通过微信相识并确立恋爱关系。在恋爱期...
09:30
近日,福建一位女性因腿部摔伤后伤口结痂出现异常现象,迅速引发社会关注。据当事人详细描述,其摔伤后形成的痂皮下突然出现白色物质,形态类似食物发霉,这一罕见情况通过社交平台传播后,迅速在网络上掀起热议浪潮。 "当时看到伤口表面的白色斑块,心里顿时感到一阵恐慌。"该女子在社交账号中分享道,原本只是打算自行观察伤口变化,但当她将照片发布到网络后,立刻收到了大量网友的...
09:30
美国媒体8月14日最新报道,科罗拉多州柯林斯堡地区近期爆发多起令人震惊的野兔异常病例,这些动物头部竟生长出黑色触手状或角状增生组织,迅速引发当地居民恐慌。据目击者描述,这些骇人听闻的突起物从兔子的面颊、耳后等部位疯狂生长,部分病例中增生组织几乎覆盖整张面部,将原本温顺的动物变成面目全非的怪物。更令人不安的是,有患病野兔竟连续两年返回同一住宅区活动,目击者惊恐...
09:30
鹏辉能源近日传来振奋人心的消息,公司固态电池中试线建设正有条不紊地推进中,预计将于2025年9月底正式落成投产。自去年8月首次发布固态电池以来,鹏辉能源始终致力于技术创新与突破,通过持续优化研发流程,成功将电池能量密度从280Wh/Kg提升至320Wh/Kg,这一技术飞跃标志着公司在新能源领域又迈出了坚实一步。 新一代固态电池最突出的亮点在于其独特的自动适应...
09:30
2025年8月14日,福建省伍心养老服务有限公司董事长陈柳树携团队,与泰康之家运行保障部总经理喻颖一行共同到访松霖科技,进行了一场富有成效的参观调研活动。此次访问旨在探索康养机器人在养老服务体系中的创新应用,为老年人提供更优质、高效的照护服务。 在参观过程中,陈柳树董事长和喻颖总经理对松霖科技在康养机器人领域的研发成果和实际应用案例给予了高度关注。双方就机器...
09:30
2025年8月14日清晨,国内期货市场开盘即现跌势,主力合约普遍遭遇下跌。其中,焦煤期货跌幅最为显著,一度超过4%,成为当日市场焦点。焦炭和菜粕期货也紧随其后,跌幅均超过2%,显示出相关产业链承压。工业硅期货同样未能幸免,跌幅接近2%,反映出市场对原材料价格的整体担忧情绪。与此同时,部分品种逆势上涨,烧碱期货和沪银期货涨幅均超过1%,为震荡的市场增添了一抹亮...
09:30
2025年8月14日,北京时间上午9点30分,富时中国A50指数期货迎来强劲开盘表现,开盘价较前一交易日上涨025,标志着市场对当前经济环境的积极预期。在交易初期,该指数期货展现出稳健的小幅上升趋势,交易量逐步放大,反映出市场参与者的谨慎乐观情绪。这一开盘表现不仅为当日市场走势奠定了良好基调,也预示着投资者对A股市场未来走势持相对乐观态度。从技术面来看,A5...
09:30
2025年上半年,全球智能眼镜市场迎来爆发式增长,出货量同比激增110%,展现出强劲的市场潜力与用户接受度。在这一波浪潮中,Meta凭借其绝对优势以73%的市场份额稳居行业龙头地位,其成功主要归功于Ray-Ban Meta智能眼镜的持续热销以及产能的稳步扩张。这款产品凭借出色的用户体验和时尚设计,迅速赢得了消费者青睐,成为智能眼镜市场现象级产品。 与此同时,...