近日 Uber 在印度推出了一项创新服务,为共享乘车和外卖司机提供利用碎片化时间参与数据分类和信息收集的机会。这项服务由 Uber AI 解决方案全球负责人 Megha Yethadka 在 LinkedIn 上正式宣布。Yethadka 指出,司机在日常运营中往往存在闲置时段,或希望通过夜间工作增加额外收入。这些新的数据任务形式多样,包括照片审查、物体计数、文本分类、音频录制以及电子收据数字化等,旨在为 Uber 全球企业客户提供数据支持,助力其开发生成式人工智能模型和消费级应用。
Yethadka 进一步透露,此前此类任务主要依赖外部独立承包商完成,而新服务的初步成效令人鼓舞,公司计划将这一模式向全球推广。她在演示视频中暗示,该服务未来可能覆盖全球范围。Uber 印度及南亚总裁 Prabhjeet Singh 表示,目前该服务已覆盖 12 个城市,已有“数以万计的司机”积极参与 Uber 倡导的“数字任务”项目。
Uber 首席执行官 Dara Khosrowshahi 在 8 月财报电话会议上强调,推出数字任务的核心优势在于 Uber 拥有将任务分配给全球赚取者的独特能力。他展望道:“未来将涌现新型赚取者,他们将为全球 AI 发展贡献力量。”这一举措不仅为司机创造收入渠道,更推动人工智能领域的数据积累。
与此同时,Uber 还宣布了另一项重大进展:公司已成功运营一个规模达 350PB(拍字节)的数据湖,并开发了数据保护工具 HiveSync。Uber 工程团队在公告中解释,过去的数据基础设施采用双区域运行模式以确保冗余,但这导致第二个区域资源闲置,产生不必要的成本。为解决这一问题,Uber 启动了“单区域计算”(SRC)计划,将所有批量计算任务集中在一个区域处理,再通过 HiveSync 复制至备用区域。
HiveSync 自 2016 年开发以来,已成功管理约 300PB 数据,存储在 80 万张 Hive 表中,每日完成 8PB 数据复制任务。Uber 表示,计划将这一复制服务开源,并持续优化功能以应对可扩展性和低延迟的挑战。此外,HiveSync 在 Uber 将批量数据分析和机器学习训练系统迁移至谷歌云的过程中发挥了关键作用。
划重点:
🌟 Uber 在印度推出司机数据分类新任务,助力 AI 模型发展
👥 数以万计的司机已参与这一“数字任务”,服务覆盖 12 个城市
💾 Uber 同步发布 350PB 数据湖及数据保护工具 HiveSync