Meta近日发布了一项名为FACET的全新数据集,旨在深入探究计算机视觉模型在识别特定人群时可能存在的偏见问题。FACET数据集包含32000张高质量图片,涵盖了50000个个体,并详细标注了职业、活动类别以及人口统计特征和身体属性。这一创新数据集为研究人员和从业者提供了宝贵的工具,用以评估模型在分类、检测、分割和定位任务中的公平性表现。

微新创想(idea2003.com)9月1日 消息:Meta通过发布FACET数据集,进一步推动了AI领域的公平性研究。该数据集不仅包含了丰富的图像资源,还通过人类注释者对每张图片进行了细致的标注,涵盖了从职业活动(如篮球运动员、DJ、医生)到人口统计特征(性别表现、年龄组)以及身体属性(肤色、发型、面部特征等)的全方位信息。这一举措使Meta能够对模型在识别不同人群时的偏见进行深度评估。

Meta在与技术媒体TechCrunch分享的博客文章中强调,FACET的发布旨在为研究人员和从业者提供基准测试工具,帮助他们识别模型中存在的偏见,并监控缓解措施的效果。文章中写道:“我们鼓励研究人员使用FACET来评估其他视觉和多模态任务的公平性。”这一数据集的推出,标志着AI领域在推动公平性研究方面迈出了重要一步。

尽管探测计算机视觉算法偏见的基准测试并非新鲜事物,Meta此前也发布过相关工具,但FACET在深度和广度上均有所突破。它能够回答诸如“当被感知的性别表现具有更多传统男性特征时,模型是否在将人们分类为滑板运动员方面做得更好?”以及“当头发卷曲程度与直发相比时,任何偏见都会放大吗?”等复杂问题。

FACET的创建过程同样值得关注。Meta首先让注释团队对32,000张图像中的每张人物图像进行标注,内容涵盖人口统计属性(如性别表现、年龄组)、身体属性(肤色、发型、面部特征等)以及类别标签。这些标注信息随后与来自Segment Anything1Billion的数据集进行整合,后者是Meta设计的用于训练计算机视觉模型从图像中分割或隔离物体和动物的数据集。

然而,FACET的创建过程也引发了一些争议。有报道指出,FACET图像的来源是Segment Anything1Billion,而这些图像则从“照片提供商”处购买,目前尚不清楚图片中所描绘的人是否知情。此外,关于注释者的招募方式和报酬水平也存在疑问。Meta在白皮书中称注释者为“经过培训的专家”,并来自北美、拉丁美洲、中东、非洲、东南亚和东亚等多个地理区域。他们通过第三方供应商的专有注释平台工作,报酬按照每个国家一小时的工资标准支付。

尽管存在一些争议,FACET在评估模型公平性方面仍具有重要意义。Meta将自家的DINOv2计算机视觉算法应用于FACET,发现了几种偏见,包括对某些性别表现的人的偏见以及对典型地将女性照片识别为“护士”的可能性的偏见。Meta在博客文章中写道:“DINOv2预训练数据集的准备过程可能无意中复制了为策展选择的参考数据集中的偏见。我们计划在未来的工作中解决这些潜在的不足之处,并相信基于图像的策展也可以帮助避免因使用搜索引擎或文本监督而产生的潜在偏见。”

没有完美的基准测试,但Meta的FACET无疑为AI领域的公平性研究提供了重要支持。Meta承认FACET可能无法充分捕捉现实世界的概念和人口群体,并指出由于自FACET创建以来,许多职业形象可能已经发生了变化。例如,在COVID-19大流行期间拍摄的FACET中的大多数医生和护士都佩戴了比大流行前更多的个人防护装备。Meta表示,目前不打算更新此数据集,但将允许用户标记任何可能令人反感的内容,并在发现时删除这些内容。

除了数据集本身,Meta还提供了一个基于网络的数据集浏览器工具。要使用该工具和数据集,开发人员必须同意不将其用于训练计算机视觉模型,而仅用于评估、测试和基准测试。这一举措体现了Meta在推动AI公平性研究方面的决心和努力。

最新快讯

2025年08月10日

16:09
微新创想8月10日讯 OpenAI于8日凌晨正式发布了其迄今为止最强大的人工智能模型GPT-5。然而新模型上线后不久便遭遇了用户的大量吐槽,使用体验远未达到预期。本周OpenAI又发布了全新升级的GPT-5系列,同时宣布淘汰多款旧版AI模型,这一决定引发了部分用户的强烈不满和反弹。 在外国论坛Reddit的ChatGPT讨论区,不少用户表达了强烈不满。有人愤...
16:09
微新创想8月10日重磅消息,华为即将在8月12日举办的2025金融AI推理应用落地与发展论坛上,重磅发布AI推理领域的革命性技术突破。据行业深度消息透露,这一突破性成果有望从根本上降低中国AI推理对HBM(高带宽内存)技术的依赖,显著提升国内AI大模型推理性能,并完善中国AI推理生态的关键环节。 HBM(High Bandwidth Memory,高带宽内存...
16:09
2025年上半年,佰维存储的财务表现呈现出显著的盈利挑战。尽管公司营业收入实现了13.70%的同比增长,达到39.12亿元,但净利润却出现了大幅下滑,净亏损额度高达2.26亿元。这一数据揭示了公司在扩大营收规模的同时,盈利能力并未得到有效提升,经营状况仍面临较大压力。 从行业角度来看,佰维存储的营收增长表现尚可,但亏损扩大的情况不容忽视。这表明公司在成本控制...
16:09
北京时间8月10日14时59分,一场6.0级地震在堪察加半岛东南沿岸海域悄然发生,震源深度达到33公里。这一地质活动虽然释放了能量,但幸运的是并未对当地造成人员伤亡或财产损失。 据俄罗斯科学院‘统一地球物理局’堪察加分部发布的官方消息,此次地震发生在远离陆地的海域区域。专家分析指出,由于震源深度相对较浅,地震波在传播过程中能量有所衰减,这也是目前未观察到明显...
16:09
2025年8月10日,工业富联正式发布其备受瞩目的半年度财务报告,数据显示公司上半年经营表现亮眼。报告显示,工业富联实现营业收入高达3607.60亿元,相较于去年同期大幅增长35.58%,这一成绩彰显了市场需求的强劲复苏态势。在盈利能力方面,公司上半年净利润达到121.13亿元,同比增长率高达38.61%,创历史新高。这一显著的经营业绩提升,主要得益于两大核...
16:09
2025年8月10日,佳创视讯(股票代码:300264.SZ)正式发布重要公告,宣布公司控股股东陈坤江已与毛广甫、李莉夫妇签署《控制权变更框架协议》。根据协议内容,若相关交易顺利达成,佳创视讯的实际控制人将迎来重大转变,由陈坤江变更为毛广甫与李莉夫妇。这一变动不仅标志着公司股权结构的深刻调整,更可能对公司未来的战略发展方向和经营业绩产生深远影响。为配合此次控...
16:09
四川盆地近日强降雨持续不断,国家防汛总指挥部于8月10日14时紧急启动防汛四级应急响应,以应对严峻的汛情形势。据气象部门最新预报,8月10日至12日期间,四川盆地将迎来中到大雨天气,局部地区更可能出现暴雨乃至大暴雨的极端天气,中央气象台已于10日10时正式发布暴雨黄色预警,提醒公众做好防范准备。 此次防汛四级应急响应的启动,充分体现了国家防总对四川盆地汛情的...
16:09
2025年8月10日,清华大学计算机科学团队传来振奋人心的消息,他们成功突破了一项尘封四十年的最短路径算法纪录,这一里程碑式的成果为计算机科学领域带来了革命性的影响。最短路径问题作为计算机科学中的核心难题之一,在现实世界的应用场景极为广泛,从导航软件的路线规划到物流运输的路径优化,再到网络通信的数据传输,其高效解决方案都直接关系到行业效率的提升。此次突破不仅...
16:09
2025年8月,黑龙江省鹤岗市正以惊人的速度摆脱“白菜价”房源的标签,向高端楼市转型。这一转变在近日开售的向阳区新楼盘中得到了充分体现,该楼盘迅速引发广泛关注,吸引来自全国各地的游客前来选购。鹤岗的楼市复苏并非偶然,而是产业转型与生态价值双重推动的结果。当地新建的多个智慧社区,不仅提升了城市品质,更标志着鹤岗正迈向高质量发展之路。这一系列变化,不仅让鹤岗重新...
16:09
2025年8月10日,中国铁路乌鲁木齐局集团公司传来喜讯,最新数据显示,截至8月8日,霍尔果斯铁路口岸今年中欧(中亚)班列通行量已强势突破6000列大关,这一成绩不仅刷新了年度历史记录,更令人瞩目的是,相较于去年同期,通行时间整整提前了46天,展现出惊人的发展速度和效率。这一里程碑式的突破,不仅彰显了我国铁路运输体系的强大实力,也凸显了霍尔果斯口岸作为国际物...
15:05
8月10日,我国在隧道与地下空间领域迎来重大突破,首个垂直大模型正式问世。这一创新成果由中国中铁隧道局隧道掘进机及智能运维全国重点实验室自主研发,其技术体系建立在海量工程数据之上,依托773条工程线路和1200亿条建造数据,实现了对复杂地下环境的精准解析与智能建模。作为我国在该领域的里程碑式成果,该模型不仅填补了国内空白,更为全球隧道建设提供了全新的技术范式...
15:05
8月10日清晨7时25分,印尼北马鲁古省的杜科诺火山突然喷发,火山灰柱直冲高空约800米,喷发过程持续了整整62.38秒。这一突发性火山活动已将火山警戒级别提升至二级,意味着火山活动正处于活跃状态,存在进一步喷发的可能。根据火山监测部门的紧急通知,所有居民和游客被强烈建议远离火山口周边4公里半径的警戒区域,以避免火山灰、熔岩碎屑以及其他危险物质带来的潜在威胁...