GPT-4赋能AI标注工具效率提升100倍成本降低1/7

2023-09-19 08:40:19 互联网 96 次阅读

在人工智能飞速发展的今天，算力或许不是最大的瓶颈，而是高质量数据标注的稀缺性。OpenAI凭借精准标注的数据，让ChatGPT一跃成为大模型竞赛的领头羊，但代价却是被媒体口诛笔伐的道德争议。非洲廉价劳动力的使用，不仅引发了伦理争议，更让参与标注的工人在有毒内容中承受着难以磨灭的心理创伤。时代周刊和卫报的报道，将这一行业潜藏的问题暴露无遗。是时候寻找新的解决方案了，谷歌、Anthropic等科技巨头纷纷投身数据标注自动化，而一家初创公司refuel，则带来了革命性的开源工具——Autolabel。

Autolabel：用AI标注数据，效率提升100倍

这款工具让用户能够借助主流的LLM（如ChatGPT、Claude等）对数据集进行高效标注。refuel宣称，相较于传统人工标注，Autolabel的效率最高可达100倍，而成本仅为人工的1/7。即便使用成本最高的GPT-4，其标注成本也远低于人工，若采用更经济的模型，成本还能进一步压缩。Autolabel+LLM的标注方式，让效率得到了质的飞跃。

在LLM标注质量评估方面，Autolabel开发者创立了基准测试，通过对比不同LLM的标注结果与标准答案，来衡量标注质量。采用GPT-4进行标注时，准确率高达88.4%，超越了人类标注的86.2%。其他更便宜的模型也表现出色，开发者建议在简单任务中使用经济模型，复杂任务则交给GPT-4，这样既能节省成本，又能保证标注质量。

Autolabel功能丰富，支持自然语言处理项目中的分类、命名实体识别、实体匹配和问答等任务。它兼容OpenAI、Anthropic和Google Palm等主流LLM提供商，并通过HuggingFace支持开源和私有模型。用户可以尝试不同的提示策略，如少样本和思维链提示，只需简单更新配置文件，就能轻松评估标签置信度。Autolabel免去了编写复杂指南和等待外部团队的繁琐流程，用户可在几分钟内开始标注数据。对于数据隐私要求极高的用户，Autolabel提供了低成本、低门槛的解决方案。

如何用AI进行评论有害性标注？

无论是律所使用GPT-4分类法律文档，还是保险公司用私有模型处理敏感医疗数据，Autolabel都能高效胜任。以社交媒体内容审核团队为例，他们需要训练分类器来判断评论是否有毒。没有Autolabel，收集几千个示例并人工标注可能需要几周时间；而使用Autolabel，只需几分钟就能完成标注。

Autolabel安装

首先安装必要的库：pip install ‘refuel-autolabel[openai]’。然后设置OpenAI密钥为环境变量。下载并查看数据集，使用Civil Comments数据集，运行from autolabel import get_data; get_data(‘civil_comments’)即可下载。标注例子分为三个步骤：首先指定标签配置并创建LabelingAgent；接着运行agent.plan，使用指定LLM对数据集进行标注；最后使用agent.run运行标签实验。

1. 简单标签指南定义

定义配置文件如下：config={“task_name”:”ToxicCommentClassification”,”task_type”:”classification”,”dataset”:{“label_column”:”label”},”model”:{“provider”:”openai”,”name”:”gpt-3.5-turbo”},”prompt”:{“task_guidelines”:”Doestheprovidedcommentcontain’toxic’language?Saytoxicornottoxic.”,”labels”:[“toxic”,”nottoxic”],”example_template”:”Input:{example}\nOutput:{label}”}。创建自定义配置可使用CLI或编写配置文件。预演时，运行from autolabel import LabelingAgent, AutolabelDataset; agent=LabelingAgent(config); ds=AutolabelDataset(‘test.csv’, config=config); agent.plan(ds)，输出将显示预估成本、示例数量和每例平均成本。最后进行数据标注，运行ds=agent.run(ds, max_items=100)，输出结果将显示支持度、阈值、准确率和完成率。

技术细节：标注质量Benchmark介绍

Autolabel的基准测试涵盖了多个数据集，使用了多种LLM进行评估。评估标准包括标签质量、周转时间和生成每个标签的成本。数据集分为种子集和测试集，种子集用于置信度校准和提示任务，测试集用于评估和报告结果。人工标注由第三方平台完成，分为三个阶段：提供标注指南、评估种子集并修正错误、解释标签指南问题并标注测试集。

结果：标签质量

标签质量通过生成标签与基准真相的一致性来衡量。对于SQuAD数据集，使用F1分数；对于其他数据集，使用精确匹配。结果显示，最先进的LLM在文本数据集标注上已达到甚至超越了熟练人工的水平，大大简化了数据标注流程。GPT-4在多个数据集中的标签质量优于人类，其他LLM的表现也接近80%，但价格仅为GPT-4的十分之一。评估LLM时存在数据泄露风险，研究人员通过集合改进将一致性提高到95%以上。

置信度估计

为了解决LLM的幻觉问题，研究人员采用token级日志概率平均化来估计标签置信度。对于提供对数概率的LLM，使用这些概率估计置信度；对于其他LLM，则使用FLAN T5XXL模型进行置信度估计。通过校准步骤，研究人员为LLM确定工作点，拒绝低于阈值的标签。在95%的质量阈值下，GPT-4可标注约77%的数据集。使用置信度估算方法，并将置信度阈值设定为95%，得到以下数据集和LLM的完成率：95%与基准真相一致的完成率。在所有数据集中，GPT-4的平均完成率最高，多个模型也实现了很好的性能，价格却远低于GPT-4。

未来更新的方向

开发者承诺在未来几个月中，向Autolabel添加更多功能：支持更多LLM进行数据标注，支持更多标注任务（如总结），支持更多输入数据类型和更高的LLM输出稳健性，让用户能够试验多个LLM和不同提示的工作流程。参考资料：https://www.refuel.ai/blog-posts/introducing-autolabel