当前的AI热潮,正源于一种前所未有的大规模、单调乏味且重复性极高的劳动。这种劳动形式不仅取代了部分传统工作岗位,更催生了全新的产业生态,一支庞大的AI民工大军正在全球范围内悄然崛起。以乔为例,这位30岁的肯尼亚大学毕业生,在毕业后的几个月里,便找到了一份数据标注员的工作。这份工作看似简单,实则枯燥,他需要日复一日地处理用于训练AI的原始信息,为机器学习提供必要的“养料”。AI通过在海量数据中识别模式来学习,但这一切的前提,是必须由人类进行细致的分类和标记。这些默默无闻的标注员,正是支撑起庞大AI系统背后的重要力量。

乔的工作内容具体而繁琐,他需要为自动驾驶汽车标记视频,一帧一帧地从各个可能的摄像头角度,精准地标记出每辆车、行人、骑自行车的人以及任何需要车主注意的物体。这是一项既艰难又重复性的劳动,仅仅几秒钟的视频片段,往往需要耗费长达8个小时的标注时间。乔在忙碌了半天之后,也只能赚到大约10美元(约合72元人民币)的收入。然而,到了2019年,乔迎来了一个“发财机会”。由于一家新公司急需标注员,他们成立了一个专门的训练营,负责培养新的标注人才。乔成为了这个训练营的负责人,报酬是之前做标注员的四倍。每隔两周,就会有50名新手排队进入内罗毕的一栋办公楼,开始他们的学徒生涯,这让人感觉市场对标注员的需求似乎是无限的。

他们被要求从对着镜子自拍的照片中,识别出衣服的种类进行分类;通过机器人吸尘器的视角,判断他们所在的房间布局;在激光雷达扫描的摩托车周围,画出精确的正方形。乔的一半以上学生,通常在训练营结束前就选择了退学。“有些人不知道如何长时间待在一个地方。”他委婉地解释道,“我承认,这确实很无聊。”尽管如此,在一个工作稀缺的地方,这好歹是一份能够糊口的工作。最终,乔还是培养出了数百名毕业生。这些学生毕业后,回到家里,独自在卧室和厨房里工作,并被严格禁止告诉任何人他们在做什么。实际上,保密性并不是什么问题,因为他们自己也不知道自己在干什么。

对于这些刚出师的学生来说,为自动驾驶汽车标记障碍物,似乎很好理解。但是,对于那些扭曲的对话片段进行分类,就没那么轻松了。他们需要上传自己的照片:先是一脸茫然地盯着摄像头,然后咧着嘴笑,还要戴上摩托车头盔。每个项目都是某个更大程序的一个很小组成部分,因此很难说他们到底在训练AI做什么。他们也无法从这些项目的名称中寻找蛛丝马迹:“蟹的传人”、“鲸鱼段”、“林地陀螺仪”和“药盒香肠”,这些项目代号看起来毫无头绪。那么,他们到底是在为谁打工呢?大多数人只知道它叫Remotasks,是一家面向英语流利者提供工作的网站。和大多数标注员一样,乔并不知道Remotasks是美国AI标注公司Scale AI旗下的外包公司。Scale AI是一家价值数十亿美元的硅谷数据供应商,客户包括OpenAI和美国军方。不过,Remotasks和Scale AI的网站都没有提到双方的关系。

许多人对于ChatGPT等大语言模型的关注,都集中在AI通过自动化取代的工作岗位上。然而,即使是最为先进的AI背后,也是由无数人力支撑的。它需要大量人力标注数据来训练,并在它感到“困惑”时对数据进行澄清。只有那些有能力购买这些数据的公司,才能参与激烈的AI竞争,而这些公司在得到数据后,会极力防止数据外泄。结果就是,除了少数例外情况以外,人们对于塑造AI系统行为的信息知之甚少,对于塑造这些系统行为的人,更是了解甚微。

对乔的学生来说,这是一份“十分不正常”的工作:没有固定的时间表、没有同事、不知道自己在做什么、也不知道为谁工作。实际上,他们很少把这项劳动称之为工作,只是称之为“任务”,他们是任务工作者。人类学家大卫·格雷伯(David Graeber)曾经给那些没有意义的工作起了一个名字:“狗屁工作”,指的是那些本应该被自动化取代,但由于官僚主义、地位或惰性等原因而没有自动化的工作。而AI标注员的工作则与之相反:这是人们希望自动化的工作,而且通常认为它们已经自动化了,但是仍需要人类代替。这些工作确实有一个目的,只是工作者通常不知道它是什么。

当前的AI热潮,正是源自这种前所未有的大规模单调乏味、重复性劳动。2007年,时任普林斯顿大学教授的AI研究员李飞飞怀疑,改善图像识别神经网络的关键是使用更多数据进行训练,需要数百万标记图像而不是数万张。但问题是,她的本科生团队需要花费数十年时间和数百万美元才能给这么多照片贴上标签。不过,当时亚马逊已经拥有了一个众包平台Mechanical Turk,世界各地的人们在这里以低廉的价格完成小任务。于是,李飞飞在Mechanical Turk上找到了数千名数据标注工作者,创造了标注数据集ImageNet。它让机器学习取得了突破,让这一领域焕发新机,迎来了十年进步。如今,标注仍然是AI开发的基础组成部分。但是,工程师们经常觉得,对于构建大模型这一更迷人的工作而言,标注是一个短暂的、不方便的先决条件。你可以尽可能便宜地收集尽可能多的标记数据来训练模型,如果它有效,至少在理论上你就不再需要标注员了。但是,标注永远不会真正完成。在研究人员眼里,机器学习系统是“脆弱的”。当遇到训练数据中没有充分解释的东西时,它很容易失败。这些失败被称为“边缘情况”,可能会产生严重的后果。例如,2018年,网约车巨头Uber的一辆自动驾驶测试车撞死了一名女性。尽管该汽车的自动驾驶系统被进行了编程,要求避开骑自行车的人和行人,但它不知道该如何对待骑自行车过马路的人。随着越来越多的AI系统被投入到世界中提供法律咨询和医疗帮助,它们面临的边缘情况就越多,需要更多人类来协助解决。这已经催生了一个全球性产业,由像乔这样的人组成,他们用自己独特的人类能力来帮助机器。标注是一门大生意。Scale AI由当年19岁的亚历山大·王(Alexandr Wang)在2016年创立,2021年的估值已达到73亿美元,这让他登上了《福布斯》“最年轻的白手起家亿万富翁”榜单。不过,自那以后,他的股份在二级市场的价值已经下跌。“标注生意拥有一套完整的供应链,”非营利组织AI伙伴关系(Partnership on AI)的项目和研究负责人索南·金达尔(Sonam Jindal)表示,“业内普遍认为,标注不是开发的关键部分,也不会长时间需要它。所有的兴奋之情都围绕着人工智能,一旦我们建立了它,就不再需要标注,所以为什么要考虑它呢?但标注是AI的基础设施。人类智慧是AI的基础,我们需要将其视为AI经济中的真正工作,这些工作将在一段时间内存在。”OpenAI、谷歌和微软等知名AI公司都有各自的数据供应商。一些私人外包公司拥有类似呼叫中心的办公室,比如肯尼亚和尼泊尔的CloudFactory。乔就是在那里做标注,每小时1.2美元,之后他才转投Remotasks。还有像Mechanical Turk和Clickworker这样的“众包”网站,任何人都可以注册来完成任务。中间层是Scale AI之类的服务,任何人都可以注册,但每个人都必须通过资格考试和培训课程,并接受绩效监控。

揭秘AI民工:低时薪重复劳动背后的大数据产业插图

怎么接活?今年早些时候,记者在Scale AI的外包公司Remotasks网站上进行了注册。过程很简单,输入电脑配置、网速和一些基本的联系信息后,记者就来到了“培训中心”。为了获得付费任务,记者首先必须完成一个相关的无偿入门课程。培训中心展示了一系列课程,但是这些课程的名字令人费解,比如“胶水泳衣”和“海报夏威夷”。记者点开了一个叫“GFD模块化”的课程,这项课程是给社交媒体照片中的衣物进行标注。不过,课程的指令很奇怪。例如,它们基本上是由相同的指令组成的,并用特殊的颜色和大写字体进行强调,旁边是用来警示的炸弹威胁拼贴画。“一定要给真实的、可以让人类穿着或打算给真人穿着的物品贴上标签。”指令是这么要求的。“下面的所有物品都应该贴上标签,因为它们是真实的,可以被现实生活中的人穿着。”指令再次强调。这些物品来自一个AJ品牌广告、一个戴着星球大战凯洛伦头盔的人,以及一个穿着裙子的人体模型。这些图片上面有一个石灰绿色的方框,里面的文字再次解释说,“给真实的人可以穿的真实物品贴上标签”。对于不能被标记的物品,指令也给了醒目的提示:“以下物品不应该被贴上标签,因为人类在实际生活中不可能穿着这些物品!”记者对于自己的分辨能力感到自信,于是开始了测试。首先是一张杂志的照片,上面的女人穿着裙子。照片上的服装是真实的服装的吗?记者认为不是,因为人不能穿照片中的服装。但是,错了!在AI看来,真实服装的照片就是真实服装。接下来是一张在昏暗卧室中,一个女人站在全身镜子前自拍的照片。她穿着的衬衫和短裤是真实的。那么倒影呢?同样是真实的!真实服装的倒影也是真实服装。经过尴尬的大量尝试和错误后,记者终于开始了实际工作,却惊恐地发现他一直在努力遵循的指令已经被更新和澄清了很多次,现在已经变成了一本有43页的指令书:不要标记装满衣服而且打开的行李箱;标记鞋子但不要标记脚蹼;标记紧身裤但不要标记连紧身裤袜;即使有人穿着毛巾也不要标记它;标记服装但不要标记盔甲。

Remotasks上的大部分工作都是按件计酬的,一项任务的收入从几美分到几美元不等。因为任务可能需要几秒钟或几个小时,所以工资很难预测。标注员们称,当Remotasks刚进入肯尼亚时,他们的报酬相对较高。根据任务的不同,平均每小时大约为5到10美元。但随着时间的推移,报酬会下降。Scale AI发言人安娜·弗兰科(Anna Franko)表示,该公司的经济学家会分析项目的细节、所需的技能、地区生活成本和其他因素,“以确保公平和有竞争力的薪酬”。Scale AI的前员工还表示,标注员的薪酬是通过一种类似动态定价的机制确定的,该机制根据可用的标注员数量和数据需要的迫切度进行调整。根据记者的采访和招聘公告,美国的Remotasks标注员通常每小时能挣10到25美元,一些专业标注领域的专家报酬更高。今年年初时,接受采访的肯尼亚标注员的报酬已经降到了每小时1到3美元。这还是能赚钱的时候。标注员对于Remotasks的工作最常见的抱怨就是它的不稳定性。它或许能在很长一段时间内给标注员提供足够稳定的工作,可以作为全职工作,但也充满了不可预测性,使人无法依赖它。标注员花费数小时阅读指令和完成无偿培训,结果只能完成几十个任务,随后项目就结束了。接着,标注员可能几天都没有新任务,然后再突然出现一项完全不同的任务,可能持续几个小时到几周时间不等。任何任务都有可能是他们的最后一项任务,他们永远不知道下一个任务何时到来。工程师和数据供应商称,这种时有时无的工作取决于AI开发的节奏。训练一个大模型需要大量标注,然后是更多的迭代更新。工程师们希望所有这些都尽可能快地完成,这样他们就能赶上目标发布日期,可能在几个月的时间里需要数千名标注员,然后减少到几百名,接着只需要十几名特定类型的专家,然后又需要数千名。“问题是,谁来承担这些需求波动的成本?”AI伙伴关系的金达尔说,“因为目前承担这些成本的是标注员们。”

为了取得成功,标注员们会相互合作。维克多(Victor)在内罗毕上大学时就开始为Remotasks工作。当记者告诉他自己在交通导向员任务中遇到的困难时,他表示大家都知道要远离那个任务:任务太棘手、报酬还低,不值得做。和许多标注员一样,维克多使用非官方的WhatsApp群聊,在有好任务时通知大家。当他弄清楚一个新任务时,他会即兴使用谷歌视频会议服务Meets与其他人分享如何完成任务。任何人都可以加入会议,一起研究,分享技巧。“这是我们培养起来的相互帮助的文化,因为我们知道,单凭一个人是无法掌握所有技巧的。”他说道。由于工作会毫无征兆地出现又消失,所以标注员们总是需要保持警惕。维克多发现,项目会在深夜突然出现,所以他习惯每三个小时左右醒来检查一下他的任务队列。当有任务时,他会保持清醒,只要能让自己工作。有一次,他熬夜36个小时,在人群照片中给肘部、膝盖和头部做标记,他也不知道这么做是干什么。还有一次,他熬夜太久,妈妈问他眼睛怎么了。他照镜子后才发现,眼睛肿了。

标注员通常只是模糊地知道他们正在为其他地方的企业训练AI,但有时这种神秘感会消失,因为指令中提到了某个品牌或聊天机器人说得太多了。“我读了一些资料,并通过谷歌搜索发现,我正在为一位25岁的亿万富翁工作。”一名员工说,他当时正在给打电话订购达美乐披萨的人的情绪贴标签。“如果我让某人成为亿万富翁,而我每周只赚几美元,我真的是在浪费我的生命。”他不满地说。维克多自称是一名AI“狂热者”。他开始做标注,是因为他想帮助实现一个完全自动化的后工作未来。但是今年早些时候,有人在他的WhatsApp群里发了一篇《时代》杂志的报道,内容是标注员训练ChatGPT识别有毒内容,但是Scale AI支付给他们的时薪不到2美元。“这些公司利润丰厚,但支付给标注员的薪酬却如此之低,这让人感到愤怒。”维克多说。当被告知Remotasks与Scale的关系时,他才知道自己参与的其中一项任务的指令与OpenAI使用的几乎相同,这意味着他可能也在训练ChatGPT,时薪大约3美元。“我记得有人发帖说,我们将来会被人铭记,”他说,“然后,另一个人回复说,我们的待遇比步兵还差,未来我们什么也不会被记住。这段话我记得很清楚。没有人会认可我们所做的工作和付出的努力。”

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2025年08月21日

18:18
2025年8月,一场由抖音博主桃黑黑(本名朱哲韬)引发的全民狂欢席卷了整个网络世界。这位以幽默犀利风格著称、坐拥657万粉丝的顶流博主,在“2025全国校园男神大赛”中上演了一场令人瞠目结舌的“求饶逆袭”大戏。8月20日,桃黑黑意外发现自己在大赛中的票数节节攀升,被粉丝投票推向了高位。面对这突如其来的爆火,他紧急发布了一条充满反差萌的微博:“我真求你们了,全...
18:18
微新创想8月21日最新消息,知名数码博主数码闲聊站通过官方渠道确认,小米16系列已正式完成入网备案流程,预示着这款备受期待的旗舰机型即将在9月正式发布。据悉,本次备案共涵盖3款核心机型,为消费者带来更多选择空间。 据行业爆料,小米16系列将采用双机战略,分别推出标准版小米16和小米16 Pro两款机型。其中小米16 Pro系列将提供6.3英寸和6.8英寸两种...
18:18
声明:本文来自于微信公众号 定焦One,作者:陈丹,授权站长之家转载发布。每天清晨7点半,王琪的座驾从北京五环外的天通苑驶向西二环车公庄,这段一个多小时的车程,已成为她每日的精神疗愈之旅。若遇堵车,时间会更长,但这并未让她烦恼,反而更期待这份难得的独处时光。上车后,她习惯性地打开喜马拉雅,沉浸在作家迟子建的《额尔古纳河右岸》中。鲁风苍凉的声音伴着蒙古长调,瞬...
18:18
近日,一段发生在高铁车厢的视频在抖音平台上引发了广泛关注和热议。视频中,一位网友正经历着一场令人头疼的遭遇——一位年纪尚小却异常吵闹的孩子成为了全车厢的焦点。这个孩子不仅全程高歌,还时不时用力推搡前排座椅,其行为严重干扰了其他乘客的宁静旅程。面对孩子的过分举动,有乘客尝试进行劝阻,但孩子非但没有配合,反而模仿起对方的语气和动作,场面一度尴尬又无奈。 面对这棘...
18:18
近日,一位母亲在社交媒体上分享了一段令人揪心的经历,讲述了带着三个孩子游览武汉时,因哈啰单车还车问题陷入困境的故事,迅速引发网友热议。这位母亲表示,在返回酒店途中,为了满足4岁女儿对配备宝宝椅的共享单车的喜爱,她特意扫码骑了一辆哈啰亲子车。然而,当她们准备还车时,却遭遇了意想不到的难题——尽管系统提供了多个还车地址,但无论选择哪个,都提示“不在运营区内”,无...
18:18
近期,一款专为成年人设计的“成人安抚奶嘴”在电商平台上迅速走红,成为现象级商品。部分店铺月销量突破6000件,更一度登上平台热搜榜,引发社会各界的广泛关注。这款以解压助眠、缓解焦虑为核心卖点的商品,正悄然成为当代成年人应对压力的新选择。据悉,这款成人安抚奶嘴于2025年7月首次亮相电商平台,商家宣称其具有防磨牙、辅助减肥、戒烟等多重功效,迅速吸引了大批消费者...
18:16
8月21日,自然资源部正式审定中国石化江汉油田红星页岩气田探明储量,高达1650.25亿立方米,标志着我国能源领域再添一座大型页岩气田。这一重大发现不仅刷新了我国页岩气田的探明储量记录,更为我国能源结构优化和能源安全保障注入强劲动力。 红星页岩气田地处我国页岩气资源富集区,此次探明储量的审定通过,充分验证了该区域优越的地质条件和资源潜力。作为我国页岩气开发的...
18:16
2025年8月21日,金冠电气(股票代码688517)正式发布其2025年上半年度财务报告,数据显示公司整体经营稳健,营收规模稳步提升。报告期内,公司实现营业收入3.41亿元人民币,同比增长7.75%,展现出良好的市场拓展能力。然而在盈利能力方面,归母净利润录得4233.7万元,较去年同期下降17.16%,反映出公司在成本控制和利润管理上仍面临挑战。基本每股...
18:16
8月21日,备受瞩目的东方甄选App正式开启“和俞老师共进晚餐暨东方甄选开放日第三季”活动报名通道。这场难得的互动盛宴由新东方创始人俞敏洪亲自发起,将甄选出20位幸运会员,共享一场温馨难忘的晚餐体验。活动面向所有App会员开放,报名流程经过精心简化,同时大幅提升福利待遇,旨在为粉丝提供更优质、更便捷的互动机会。 8月25日,东方甄选将公布最终入选会员名单。一...
18:16
8月21日,果切品牌切果NOW宣布其业务增长取得显著突破。自5月成功入驻淘宝闪购平台以来,该品牌日均订单量实现了惊人的飞跃,从最初的4万单激增至如今的8.5万单,甚至在某些促销期间峰值一度达到15.7万单的惊人数字。这一成绩的取得,充分展现了切果NOW产品在消费者中的广泛认可度。 在产品表现方面,爆款西瓜桶凭借其便捷实用的特点,日销量稳定突破2万份,成为品牌...
18:16
2025年8月21日,港股市场资金流向呈现显著特点,南向资金展现出对特定蓝筹股的强烈青睐。其中,腾讯控股成为当日最大赢家,南向资金净买入额高达18.71亿港元,强势领跑全天买入榜单,彰显了市场对这家科技巨头的持续看好。紧随其后的是餐饮巨头美团-W,以及智能手机制造商小米集团-W,分别获得南向资金净买入13.91亿港元和12.74亿港元,显示出投资者对消费电子...
18:16
2025年8月21日,郴州市邮政分公司同城配送中心正式宣告成立,标志着郴州地区物流服务迈入全新阶段。作为邮政系统服务网络的重要延伸,该中心以提升配送效率与优化服务质量为核心目标,创新性地构建了"专网、专人、专车"三位一体的现代化配送体系。通过精简物流流转环节,实现货物从揽收到派送的全程高效运转,并采用大数据分析技术,根据客户实际需求制定科学合理的运输计划,大...