Meta近日发布了一项名为FACET的全新数据集,旨在深入探究计算机视觉模型在识别特定人群时可能存在的偏见问题。FACET数据集包含32000张高质量图片,涵盖了50000个个体,并详细标注了职业、活动类别以及人口统计特征和身体属性。这一创新数据集为研究人员和从业者提供了宝贵的工具,用以评估模型在分类、检测、分割和定位任务中的公平性表现。

微新创想(idea2003.com)9月1日 消息:Meta通过发布FACET数据集,进一步推动了AI领域的公平性研究。该数据集不仅包含了丰富的图像资源,还通过人类注释者对每张图片进行了细致的标注,涵盖了从职业活动(如篮球运动员、DJ、医生)到人口统计特征(性别表现、年龄组)以及身体属性(肤色、发型、面部特征等)的全方位信息。这一举措使Meta能够对模型在识别不同人群时的偏见进行深度评估。

Meta在与技术媒体TechCrunch分享的博客文章中强调,FACET的发布旨在为研究人员和从业者提供基准测试工具,帮助他们识别模型中存在的偏见,并监控缓解措施的效果。文章中写道:“我们鼓励研究人员使用FACET来评估其他视觉和多模态任务的公平性。”这一数据集的推出,标志着AI领域在推动公平性研究方面迈出了重要一步。

尽管探测计算机视觉算法偏见的基准测试并非新鲜事物,Meta此前也发布过相关工具,但FACET在深度和广度上均有所突破。它能够回答诸如“当被感知的性别表现具有更多传统男性特征时,模型是否在将人们分类为滑板运动员方面做得更好?”以及“当头发卷曲程度与直发相比时,任何偏见都会放大吗?”等复杂问题。

FACET的创建过程同样值得关注。Meta首先让注释团队对32,000张图像中的每张人物图像进行标注,内容涵盖人口统计属性(如性别表现、年龄组)、身体属性(肤色、发型、面部特征等)以及类别标签。这些标注信息随后与来自Segment Anything1Billion的数据集进行整合,后者是Meta设计的用于训练计算机视觉模型从图像中分割或隔离物体和动物的数据集。

然而,FACET的创建过程也引发了一些争议。有报道指出,FACET图像的来源是Segment Anything1Billion,而这些图像则从“照片提供商”处购买,目前尚不清楚图片中所描绘的人是否知情。此外,关于注释者的招募方式和报酬水平也存在疑问。Meta在白皮书中称注释者为“经过培训的专家”,并来自北美、拉丁美洲、中东、非洲、东南亚和东亚等多个地理区域。他们通过第三方供应商的专有注释平台工作,报酬按照每个国家一小时的工资标准支付。

尽管存在一些争议,FACET在评估模型公平性方面仍具有重要意义。Meta将自家的DINOv2计算机视觉算法应用于FACET,发现了几种偏见,包括对某些性别表现的人的偏见以及对典型地将女性照片识别为“护士”的可能性的偏见。Meta在博客文章中写道:“DINOv2预训练数据集的准备过程可能无意中复制了为策展选择的参考数据集中的偏见。我们计划在未来的工作中解决这些潜在的不足之处,并相信基于图像的策展也可以帮助避免因使用搜索引擎或文本监督而产生的潜在偏见。”

没有完美的基准测试,但Meta的FACET无疑为AI领域的公平性研究提供了重要支持。Meta承认FACET可能无法充分捕捉现实世界的概念和人口群体,并指出由于自FACET创建以来,许多职业形象可能已经发生了变化。例如,在COVID-19大流行期间拍摄的FACET中的大多数医生和护士都佩戴了比大流行前更多的个人防护装备。Meta表示,目前不打算更新此数据集,但将允许用户标记任何可能令人反感的内容,并在发现时删除这些内容。

除了数据集本身,Meta还提供了一个基于网络的数据集浏览器工具。要使用该工具和数据集,开发人员必须同意不将其用于训练计算机视觉模型,而仅用于评估、测试和基准测试。这一举措体现了Meta在推动AI公平性研究方面的决心和努力。

最新快讯

2025年11月21日

15:40
2025年11月21日,领先的综合医疗保健提供商Aster DM Healthcare正式宣布成功募集7215万美元战略投资,标志着其医疗健康事业迈入新的发展阶段。作为区域内重要的医疗服务机构,Aster DM Healthcare目前运营着约19家现代化医院、10家专业诊所、200多家连锁药房以及255家高精度诊断实验室,提供从基础医疗服务到尖端四级医疗的...
15:40
2025年11月21日,Token Cat Limited与鸥亿正式达成战略合作,双方共同签署了战略合作框架协议。此次合作将聚焦于全球跨境供应链云平台的打造,旨在通过协同发展进一步拓展海外市场业务。作为业内领先的企业,双方将充分发挥各自优势,整合资源与技术能力,致力于提升跨境供应链的整体效率与竞争力。 此次战略合作的核心目标是在未来三年内实现累计海外销售...
15:40
2025年11月21日,君亭酒店正式发布重大战略投资公告,宣布将以7980万元人民币的价格收购君澜管理公司剩余21%的股权。随着此次交易的顺利达成,君亭酒店将成功实现对君澜酒店的全面控股,持有其100%的股权。作为国内高端酒店行业的领军品牌,君澜酒店自1998年创立以来,凭借卓越的品牌影响力和市场口碑,在业内树立了良好的标杆形象。此次收购是君亭酒店发展历程中...
15:40
2025年11月21日,深圳迎来一场跨境电商领域的重磅活动——由深圳市商务局携手1688共同主办的“AI to B跨境平台对接会”在鹏城盛大举行。千余名来自大湾区的高端制造企业代表齐聚一堂,共商数字化出海大计,现场气氛热烈非凡。 在此次对接会上,众多制造企业与企业1688跨境平台达成战略合作,集中签约入驻。这一批优质企业的加入,将进一步丰富平台生态,为全...
15:40
2025年11月20日,汽车行业迎来重磅消息。据权威汽车媒体AutoCar独家报道,梅赛德斯-奔驰正式宣布将推出全新纯电E级轿车,这款备受期待的车型将全面取代现款EQE,成为梅赛德斯-奔驰在E级轿车细分市场的全新旗舰。新车将延续经典的德系三厢轿车设计风格,回归传统优雅的车身比例,以极致的空间利用和卓越的舒适性为核心卖点,为消费者带来无与伦比的驾乘体验。 据悉...
15:40
2025年11月21日,备受瞩目的生物制药企业新桥生物正式宣布旗下子公司Visara的两项关键人事任命,标志着公司在眼科创新疗法领域再迎重要发展里程碑。Cadmus C Rich博士凭借其卓越的医学背景与丰富的商业管理经验,被正式任命为首席医学官(CMO)。作为公司临床开发与医学事务的核心领导者,Rich博士将全面负责全球临床研究项目的设计与执行,以及医学策...
15:40
2025年11月20日,汽车媒体CarBuzz在德国纽博格林赛道捕捉到了奥迪全新小型纯电原型车的精彩瞬间。这款原型车的设计语言令人瞩目,其高耸圆润的车顶轮廓巧妙致敬了传奇车型A2的经典风格,同时融合了独立三角窗与分体式LED灯组等标志性元素,彰显出独特的个性和复古与现代的完美融合。 车身造型方面,新车巧妙地融合了掀背车与跨界车型的设计元素,既保留了掀背车灵动...
15:40
瑞典创新企业Epishine于当地时间17日正式宣布一项突破性合作:韩国电子巨头Ohsung Electronics将在其未来产品线中全面应用Epishine的印刷式有机太阳能电池技术。这项先进的薄膜光伏技术具有独特双面采光设计,能够高效捕获室内自然光能,为谷歌Google TV配套遥控器提供稳定电力支持。 这项技术革新将彻底改变传统遥控器的供电模式。通过集...
15:26
声明:本文源自微信公众号新榜,作者云飞扬1993,经站长之家授权转载发布。近期公开活动上,知名导演白一骢透露红果高层曾表示:"相比不断提纯用户的长视频平台,红果反而会持续补贴平台上表现不佳的内容。"这一观点得到市场验证——今年红果男频短剧强势崛起,多部作品突破百万收藏量。其中《一品布衣》累计收藏超540万,全网播放量超24亿;《冒姓琅琊》品质媲美长剧,引发跨...
15:26
声明:本文源自微信公众号TopKlout克劳锐,作者小羊授权站长之家转载发布。曾经直播间里响彻的“321,上链接!”吆喝声,正被“第3集,男主送女主XX品牌明星同款限量包”的剧情种草悄然取代。当流量红利逐渐消退,获客成本逐年攀升,电商平台的竞争早已超越单纯的价格战,转向了短剧带货的内容战。上链接不再是直白的推销,而是巧妙融入剧情的场景化种草。红果短剧率先开启...
15:26
元宝重磅推出全新功能“一句话生视频”,开启全民视频创作新时代。这项突破性能力的发布标志着视频制作已彻底摆脱专业门槛,普通用户只需输入一句话或一张静态图片,即可一键生成生动有趣的视频内容。 该功能的创新之处在于其强大的技术内核——基于腾讯最新开源的HunyuanVideo1.5模型。通过深度学习算法,系统能够精准捕捉用户输入的语义信息或图片元素,并将其转化...
15:06
2025年11月21日,亚马逊正式公布一项雄心勃勃的投资计划,宣布将在美国密西西比州沃伦县打造一个全新的数据中心园区,专注于支持人工智能和云计算业务的发展。据悉,亚马逊将至少投入30亿美元巨资用于该项目的建设,这一投资不仅将显著提升亚马逊云服务(AWS)的基础设施能力,还将有效满足全球范围内日益激增的AI计算需求。 该项目预计将直接创造至少200个高技术就业...