Meta近日发布了一项名为FACET的全新数据集,旨在深入探究计算机视觉模型在识别特定人群时可能存在的偏见问题。FACET数据集包含32000张高质量图片,涵盖了50000个个体,并详细标注了职业、活动类别以及人口统计特征和身体属性。这一创新数据集为研究人员和从业者提供了宝贵的工具,用以评估模型在分类、检测、分割和定位任务中的公平性表现。

微新创想(idea2003.com)9月1日 消息:Meta通过发布FACET数据集,进一步推动了AI领域的公平性研究。该数据集不仅包含了丰富的图像资源,还通过人类注释者对每张图片进行了细致的标注,涵盖了从职业活动(如篮球运动员、DJ、医生)到人口统计特征(性别表现、年龄组)以及身体属性(肤色、发型、面部特征等)的全方位信息。这一举措使Meta能够对模型在识别不同人群时的偏见进行深度评估。

Meta在与技术媒体TechCrunch分享的博客文章中强调,FACET的发布旨在为研究人员和从业者提供基准测试工具,帮助他们识别模型中存在的偏见,并监控缓解措施的效果。文章中写道:“我们鼓励研究人员使用FACET来评估其他视觉和多模态任务的公平性。”这一数据集的推出,标志着AI领域在推动公平性研究方面迈出了重要一步。

尽管探测计算机视觉算法偏见的基准测试并非新鲜事物,Meta此前也发布过相关工具,但FACET在深度和广度上均有所突破。它能够回答诸如“当被感知的性别表现具有更多传统男性特征时,模型是否在将人们分类为滑板运动员方面做得更好?”以及“当头发卷曲程度与直发相比时,任何偏见都会放大吗?”等复杂问题。

FACET的创建过程同样值得关注。Meta首先让注释团队对32,000张图像中的每张人物图像进行标注,内容涵盖人口统计属性(如性别表现、年龄组)、身体属性(肤色、发型、面部特征等)以及类别标签。这些标注信息随后与来自Segment Anything1Billion的数据集进行整合,后者是Meta设计的用于训练计算机视觉模型从图像中分割或隔离物体和动物的数据集。

然而,FACET的创建过程也引发了一些争议。有报道指出,FACET图像的来源是Segment Anything1Billion,而这些图像则从“照片提供商”处购买,目前尚不清楚图片中所描绘的人是否知情。此外,关于注释者的招募方式和报酬水平也存在疑问。Meta在白皮书中称注释者为“经过培训的专家”,并来自北美、拉丁美洲、中东、非洲、东南亚和东亚等多个地理区域。他们通过第三方供应商的专有注释平台工作,报酬按照每个国家一小时的工资标准支付。

尽管存在一些争议,FACET在评估模型公平性方面仍具有重要意义。Meta将自家的DINOv2计算机视觉算法应用于FACET,发现了几种偏见,包括对某些性别表现的人的偏见以及对典型地将女性照片识别为“护士”的可能性的偏见。Meta在博客文章中写道:“DINOv2预训练数据集的准备过程可能无意中复制了为策展选择的参考数据集中的偏见。我们计划在未来的工作中解决这些潜在的不足之处,并相信基于图像的策展也可以帮助避免因使用搜索引擎或文本监督而产生的潜在偏见。”

没有完美的基准测试,但Meta的FACET无疑为AI领域的公平性研究提供了重要支持。Meta承认FACET可能无法充分捕捉现实世界的概念和人口群体,并指出由于自FACET创建以来,许多职业形象可能已经发生了变化。例如,在COVID-19大流行期间拍摄的FACET中的大多数医生和护士都佩戴了比大流行前更多的个人防护装备。Meta表示,目前不打算更新此数据集,但将允许用户标记任何可能令人反感的内容,并在发现时删除这些内容。

除了数据集本身,Meta还提供了一个基于网络的数据集浏览器工具。要使用该工具和数据集,开发人员必须同意不将其用于训练计算机视觉模型,而仅用于评估、测试和基准测试。这一举措体现了Meta在推动AI公平性研究方面的决心和努力。

最新快讯

2026年02月10日

23:12
微新创想:2026年2月10日,深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳,拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。 递表标志着该公司迈出港股上市关键一步,旨在拓展资本市场融资渠道,支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业,第零智能近...
23:12
微新创想:2026年2月10日,摩根大通策略师Dubravko Lakos-Bujas团队指出,市场对AI短期颠覆软件行业的担忧不切实际,软件股正迎来反弹契机 该行认为,近期无差别抛售已导致板块估值处于历史低位,叠加持仓出清、悲观情绪过度及基本面稳健,风险平衡转向上行 建议投资者增配高质量、抗AI颠覆能力强的软件股 此次调整源于市场担忧AI工具冲击传统Saa...
23:12
微新创想:2026年2月10日,谷歌在美国正式推出升级版隐私搜索结果管理功能。这一更新旨在进一步增强用户对个人隐私的控制能力,让用户能够更方便地管理网络上的个人信息。 用户可以通过“关于你的搜索结果”页面,提交驾照、护照号、社安号(SSN)等敏感信息。系统会自动扫描互联网,查找包含这些信息的网页链接,并通知用户。用户可以申请移除对应的搜索结果,从而减少个人信...
22:38
微新创想:2026年2月10日,AOC爱攻正式发布24G4ZR与27G4ZR两款电竞显示器。这两款显示器分别采用了23.8英寸和27英寸的Fast IPS面板,为玩家带来更宽广的视野和更清晰的画质。它们的原生刷新率达到了240Hz,同时支持超频至260Hz,确保在高速游戏场景中流畅无拖影。 两款显示器的分辨率均为1920×1080,满足大多数玩家的日常使用和...
22:38
微新创想:2月6日,全国首单数字人民币智能合约在四川成都建筑行业工资发放场景成功应用。此次应用标志着数字人民币在实际场景中的深度落地,为农民工工资支付提供了全新的解决方案。 由中国人民银行数字货币研究所、四川省住房和城乡建设厅以及成都高新区管委会共同见证,一智科技与交通银行四川分行等机构携手推进,实现了对104名工人的精准薪酬发放,总金额超过100万元。所有...
22:08
微新创想:2025年春运期间,全国铁路运输迎来高峰。自2月2日春运正式启动至2月10日,全国铁路累计发送旅客已突破1亿人次。随着春节临近,返乡客流持续攀升,铁路部门不断加大运力投入以满足出行需求。 2月10日作为北方小年,预计全国铁路将发送旅客1395万人次。为应对客流高峰,铁路部门当天加开列车1363列,全力保障旅客出行。相比前一日,2月9日的发送量为14...
22:08
微新创想:2026年2月10日,苹果公司针对英国竞争与市场管理局(CMA)的反垄断调查,正式宣布了四项承诺。这些承诺旨在回应监管机构对其在应用分发和系统内自我优待行为的质疑,涵盖多个关键领域。首先,苹果承诺确保App Store的审核与排名机制更加公平透明,杜绝任何形式的偏袒。其次,公司将严格保护第三方开发者的数据安全,防止未经授权的数据访问或滥用。此外,苹...
22:08
微新创想:2026年2月10日,挪威国家石油公司宣布,计划在2030年前将国际石油产量提升至90万桶油当量/日。这一战略举措旨在优化全球资产组合,进一步强化公司在海外市场的业务布局。公司表示,此次增产计划将有助于提升其在全球能源市场中的竞争力。 微新创想:尽管公司未公布具体的投资金额以及重点增产区域,但明确指出该计划将兼顾低碳转型的目标。这意味着在扩大石油产...
22:08
微新创想:2026年2月10日,伦敦证券交易所集团(LSEG)宣布与法国安盛投资管理公司(AXA Investment Managers)建立私募基金基础设施合作伙伴关系 双方将在欧洲及全球范围内合作开发标准化、数字化的私募基金数据报告与合规服务平台 该平台旨在提升私募基金在估值、披露和监管报送方面的效率与透明度 合作不涉及股权交易 将依托LSEG的Data...
22:08
微新创想:2026年2月10日,裕同科技(002831.SZ)发布公告,宣布拟以4.49亿元人民币收购华研科技51%的股份。此次交易的对手为观点投资,该公司由裕同科技实际控制人王华君与吴兰兰夫妇全资控股,因此该交易被认定为关联交易。资金来源为公司自有资金或自筹资金,交易完成后,华研科技将成为裕同科技的控股子公司,并纳入公司的合并报表范围。 华研科技自2016...
22:08
2026年2月10日,国家医保局发布2026年度第一批“高效办成一件事”重点事项清单。明确要求2026年底前,全国所有省份开通职工医保个人账户跨省共济功能。同时,目标包括:80%定点医疗机构实现医保费用即时结算;至少开展一批次国家组织药品和高值医用耗材集采;基本实现住院分娩生育医疗费用省内跨统筹区直接结算。此举旨在提升医保服务便捷性与公平性,强化个人账户资...
22:08
微新创想:2026年2月10日,蒙古国进口炼焦煤市场震荡偏弱。受春节假期临近影响,下游焦钢企业补库基本结束,采购情绪低迷,询盘问价偏低,现货市场成交氛围冷清。 口岸贸易商报价暂稳,但期货盘面下跌。市场整体表现较为疲软,缺乏明显的上涨动力。部分企业因节前备货需求已基本完成,导致短期内对炼焦煤的需求有所下降。 值得注意的是,蒙古国线上电子竞拍参与积极性提升,当日...