Meta近日发布了一项名为FACET的全新数据集,旨在深入探究计算机视觉模型在识别特定人群时可能存在的偏见问题。FACET数据集包含32000张高质量图片,涵盖了50000个个体,并详细标注了职业、活动类别以及人口统计特征和身体属性。这一创新数据集为研究人员和从业者提供了宝贵的工具,用以评估模型在分类、检测、分割和定位任务中的公平性表现。

微新创想(idea2003.com)9月1日 消息:Meta通过发布FACET数据集,进一步推动了AI领域的公平性研究。该数据集不仅包含了丰富的图像资源,还通过人类注释者对每张图片进行了细致的标注,涵盖了从职业活动(如篮球运动员、DJ、医生)到人口统计特征(性别表现、年龄组)以及身体属性(肤色、发型、面部特征等)的全方位信息。这一举措使Meta能够对模型在识别不同人群时的偏见进行深度评估。

Meta在与技术媒体TechCrunch分享的博客文章中强调,FACET的发布旨在为研究人员和从业者提供基准测试工具,帮助他们识别模型中存在的偏见,并监控缓解措施的效果。文章中写道:“我们鼓励研究人员使用FACET来评估其他视觉和多模态任务的公平性。”这一数据集的推出,标志着AI领域在推动公平性研究方面迈出了重要一步。

尽管探测计算机视觉算法偏见的基准测试并非新鲜事物,Meta此前也发布过相关工具,但FACET在深度和广度上均有所突破。它能够回答诸如“当被感知的性别表现具有更多传统男性特征时,模型是否在将人们分类为滑板运动员方面做得更好?”以及“当头发卷曲程度与直发相比时,任何偏见都会放大吗?”等复杂问题。

FACET的创建过程同样值得关注。Meta首先让注释团队对32,000张图像中的每张人物图像进行标注,内容涵盖人口统计属性(如性别表现、年龄组)、身体属性(肤色、发型、面部特征等)以及类别标签。这些标注信息随后与来自Segment Anything1Billion的数据集进行整合,后者是Meta设计的用于训练计算机视觉模型从图像中分割或隔离物体和动物的数据集。

然而,FACET的创建过程也引发了一些争议。有报道指出,FACET图像的来源是Segment Anything1Billion,而这些图像则从“照片提供商”处购买,目前尚不清楚图片中所描绘的人是否知情。此外,关于注释者的招募方式和报酬水平也存在疑问。Meta在白皮书中称注释者为“经过培训的专家”,并来自北美、拉丁美洲、中东、非洲、东南亚和东亚等多个地理区域。他们通过第三方供应商的专有注释平台工作,报酬按照每个国家一小时的工资标准支付。

尽管存在一些争议,FACET在评估模型公平性方面仍具有重要意义。Meta将自家的DINOv2计算机视觉算法应用于FACET,发现了几种偏见,包括对某些性别表现的人的偏见以及对典型地将女性照片识别为“护士”的可能性的偏见。Meta在博客文章中写道:“DINOv2预训练数据集的准备过程可能无意中复制了为策展选择的参考数据集中的偏见。我们计划在未来的工作中解决这些潜在的不足之处,并相信基于图像的策展也可以帮助避免因使用搜索引擎或文本监督而产生的潜在偏见。”

没有完美的基准测试,但Meta的FACET无疑为AI领域的公平性研究提供了重要支持。Meta承认FACET可能无法充分捕捉现实世界的概念和人口群体,并指出由于自FACET创建以来,许多职业形象可能已经发生了变化。例如,在COVID-19大流行期间拍摄的FACET中的大多数医生和护士都佩戴了比大流行前更多的个人防护装备。Meta表示,目前不打算更新此数据集,但将允许用户标记任何可能令人反感的内容,并在发现时删除这些内容。

除了数据集本身,Meta还提供了一个基于网络的数据集浏览器工具。要使用该工具和数据集,开发人员必须同意不将其用于训练计算机视觉模型,而仅用于评估、测试和基准测试。这一举措体现了Meta在推动AI公平性研究方面的决心和努力。

最新快讯

2025年06月28日

12:28
远方好物凭借其领先的平台技术实力与强大的供应链体系,巧妙地将自身优势与微信生态深度融合,成功打造了一个独具特色的健康安全食品销售平台。通过精准整合各地域的特色健康食品资源,远方好物利用微信社交平台的强大传播力,构建起一个高效的信息传递网络。目前,平台已拥有20万核心会员与300万忠实消费者,他们不仅是产品的购买者,更是品牌理念的传播者与口碑的缔造者。 作为一...

2025年06月16日

18:13
由AI驱动开发的创新在线工具——鼓狮工具箱,为用户提供全方位智能解决方案。该平台集合了多种实用功能,涵盖日常办公、学习研究及生活管理等多个领域,通过先进的人工智能技术实现高效便捷的操作体验 核心功能模块包括: 简繁转换工具:https://tools.gushiio.com/jianfan 支持快速准确的中英文简繁体互转,特别适合需要跨语言交流的用户 汉字转...

2025年06月15日

11:16
由AI驱动开发的创新在线工具——鼓狮工具箱,为用户提供全方位智能解决方案。该平台集合了多种实用功能,涵盖日常办公、学习研究及生活管理等多个领域,通过先进的人工智能技术实现高效便捷的操作体验 核心功能模块包括: 简繁转换工具:https://tools.gushiio.com/jianfan 支持简体中文与繁体中文之间无缝切换,适用于各类文档处理与内容创作场景...

2023年11月01日

08:09
10月30日,备受瞩目的"2023新一代人工智能(深圳)创业大赛"在深圳市宝安区隆重拉开帷幕。这场由深圳市互联网信息办公室、宝安区人民政府联合主办,网易传媒鼎力支持的行业盛会,标志着深圳在人工智能领域的发展迈入全新阶段。 深圳市委宣传部副部长、市委网信办主任、市委互联网企业工委书记王楚宏在启动仪式上强调,深圳正以战略眼光抢抓人工智能科技革命机遇,致力于推动A...
08:09
歌尔股份控股子公司歌尔光学科技有限公司正式宣布,将以现金支付与股份支付相结合的方式,全资收购其参股企业驭光科技(绍兴)有限公司100%股权。此次交易总金额约7.95亿元人民币,具体分为两部分:一是歌尔光学以自有资金约7.95亿元收购驭光科技62.812%股权,其中包含公司持有的10.526%股权及关联方持有的0.818%股权;二是通过定向增资扩股方式,占目前...
08:09
编者按:本文来自微信公众号 游戏葡萄(ID:youxiputao),作者:修理,微新创想经授权转载。 01 决赛差点掀翻中国,蒙古为什么能成黑马? 10月8日,杭州亚运会正式闭幕了。电子竞技项目首次纳入亚运会正式比赛项目,可谓备受行业内外关注,线下观赛一票难求。尤其是DOTA2决赛中国对阵蒙古,成为本次亚运会热度最高的几场比赛之一。三局比赛每场打得都异常激烈...
08:09
今年8月13日,钉钉总裁叶军向阿里集团内部宣布了一项重大战略调整——钉钉将脱离阿里云的分管体系,正式成为集团旗下独立运营的“N”公司。这一决策标志着钉钉进入全新的发展阶段,作为阿里集团的重要创新业务,将获得更广阔的自主空间和资源支持。事实上,钉钉的成长历程正是阿里巴巴创新战略的生动实践。 2014年1月,钉钉应运而生,其前身可追溯至阿里内部社交软件“来往”。...
08:09
编者按:本文来自微信公众号白鲸出海(ID:baijingapp),作者白鲸小编,经微新创想授权转载。本文将深入探讨一个极具潜力的社交垂类赛道——穆斯林交友,这一领域或许比许多小众领域更小众,却蕴藏着巨大的市场机遇。根据皮尤研究中心的统计数据,全球穆斯林人口已超过18亿,占全球总人口的23%。伊斯兰教法虽鼓励跨宗教婚姻,但限制穆斯林女性与非穆斯林男性结合。尽管...
08:09
编者按:本文源自微信公众号新消费内参(ID:cychuangye),作者乐乐,经微新创想授权转载。曾经引领新中式奶茶潮流的茶颜悦色,近来却频频陷入负面漩涡。短短一两年间,从员工吐槽薪资遭创始人怒怼,到新品名称被指侮辱女性,再到门店“罚站式”排队引发争议,甚至“努力努力白努力”的推文点燃学生和打工人群的怒火……创始人态度、品牌组织、门店运营、营销策略等短板逐一...
08:09
编者按:本文源自微信公众号DoNews(ID:ilovedonews),作者曹双涛,经微新创想授权转载。近日,广汽集团发布公告宣布,董事会已审议通过《关于广汽三菱重组的关联交易公告》,计划对广汽三菱及其汽车销售公司实施股权调整等重组措施。广汽集团将以1元对价受让三菱自动车工业株式会社与三菱商事株式会社持有的广汽三菱30%和20%股权,使广汽三菱成为广汽集团的...
08:09
烘焙行业正面临一场前所未有的涨价风暴,中产消费者纷纷抱怨面包价格居高不下。近期,小红书平台上涌现大量关于烘焙产品高价的讨论,网友晒出北京、上海、长沙、泉州等地多家烘焙品牌的商品价格,其中北京某品牌脏脏包29元、蓝莓巴斯克芝士蛋糕69元;上海某品牌焦糖牛角酥24元、黑松露双重芝士法包88元;长沙某品牌紫苏杏干夏巴塔18元、开心果布雷斯特车轮泡芙38元;泉州某品...
08:09
茶的味道始终如一,而消费者的心态与口味却发生了翻天覆地的变化。不久前,我有幸结识了一位饮料经销商大哥,在探讨食品饮料行业时,我提及了近期哪些品牌走红、哪些新品备受关注。大哥却一针见血地指出,那些在网上大肆宣传的品牌不过是昙花一现的虚火,他所在地区一年的销量加起来也不过二十箱货。他告诉我,真正火热的饮料只有一个——东方树叶,其他品牌都是货找人,唯有东方树叶是人...