苹果ICLR论文数据出错30% 程序员通宵揭露大模型数据危机

ICLR2025国际会议的审稿环节刚刚落下帷幕,一篇由苹果公司发布的、号称“小模型超越GPT-5”的视觉推理论文却遭遇了公开的学术“审判”。这一事件迅速在学术界掀起波澜,引发了对数据质量与科研诚信的深刻反思。

阶跃星辰的研究员Lei Yang在尝试复现该论文实验时,发现了一个令人震惊的问题:官方提供的代码中竟然遗漏了图片输入的关键步骤。当Lei Yang修复这一漏洞后,模型的准确率非但没有提升,反而出现了断崖式下跌。更令人担忧的是,在随机抽查的20道测试题中,竟然有6道的Ground Truth标签存在错误——这一比例意味着整体数据集的Ground Truth错误率可能高达30%。

面对这一严峻问题,Lei Yang在GitHub平台上提交了详细的issue报告,然而却只收到了两句敷衍的回复,问题很快就被关闭。无奈之下,Lei Yang决定撰写一篇长文,向论文的审稿人及学术界发出警告。这一举动迅速引发了广泛关注,相关讨论在学术圈内迅速发酵。

苹果ICLR论文数据出错30% 程序员通宵揭露大模型数据危机插图1

事件发酵第二天,论文作者团队终于承认了“数据生成流程存在缺陷”,并紧急上传了修正版的基准数据集,同时承诺将重新运行实验、更新研究结果。这一回应虽然来得有些迟,但总算为事件画上了一个暂时的句号。

这一事件不仅暴露了大型科技公司科研过程中可能存在的漏洞,更引发了学术界对于数据质量控制的深刻思考。大模型时代,自动生成的数据集如果缺乏严格的人工质检环节,即便是像苹果这样的科技巨头也难免会“翻车”。Lei Yang的这一经历也给所有科研工作者敲响了警钟:“在复现任何实验之前,都应该先进行小样本的‘体检’测试,避免让错误的Ground Truth标签浪费宝贵的算力资源和科研时间。”

这一事件也提醒我们,在追求技术突破的同时,更不能忽视数据质量这一基础环节。只有建立完善的数据质量控制体系,才能确保科研工作的严谨性和可靠性,推动人工智能技术的健康发展。

最新快讯

2025年12月01日

11:31
12月1日,北京市卫生健康委员会发布最新通报,正式宣布全市已进入流感高发期。监测数据显示,当前主要流行株为甲型H3N2病毒。值得注意的是,尽管流感活动强度有所上升,但根据历史数据对比,本次流感的流行强度仍低于以往同类型病毒高峰期的水平,这为市民带来了一丝安心。 为有效应对此次流感疫情,北京市已启动"三医联动"应急机制。该机制通过统筹医疗资源、优化药品供应和强...
11:31
2025年11月30日,备受瞩目的阿勒泰禾木希尔顿酒店在吉克普林国际滑雪度假区西区盛大启幕。这座现代化豪华酒店傲踞泰加林与雪山的壮丽画卷之中,与雪场核心区域无缝接驳,为滑雪爱好者与度假游客打造完美的休憩之所。酒店精心规划了200间客房及套房,从45平方米的精致空间到宽敞舒适的套房,均配备全景落地窗,让宾客尽享无与伦比的自然风光。 餐饮方面,酒店设有厨艺餐厅与...
11:31
2025年12月1日,全球AI算力需求呈现爆发式增长,导致内存芯片市场陷入供不应求的紧张状态,价格随之急速攀升。据行业监测数据显示,近期16GB+512GB内存模组的涨幅已接近500元,这一趋势正对手机产业链产生连锁反应。业内专家透露,当前手机市场正面临严峻的涨价风险,部分主流厂商已出现内存原材料短缺现象。随着供应链压力不断累积,这种成本上升的传导效应预计将...
11:31
近日,同方股份董事长韩泳江率领团队到访中国聚变能源公司,与中国聚变董事长刘叶举行了富有成效的会谈。此次会晤聚焦于人工智能与聚变研发的深度融合,探讨了数智技术在核技术创新中的应用,以及数字聚变堆的构建路径等前沿议题。双方在交流中分享了宝贵的经验与独到的见解,共同探索科技发展的新机遇。 会谈中,双方明确了“技术—需求—落地”的协同发展模式,旨在通过资源共享与优势...
11:31
2025年12月1日,上海闵行金融投资发展有限公司正式完成注册资本的跨越式调整,将原有10亿元人民币的资本金大幅增至50亿元,实现了高达400%的惊人增长。这一重要的工商变更举措,不仅标志着公司资本实力的显著增强,更彰显了其在区域金融服务与投资领域持续深耕的决心与实力。此次增资计划作为近期一系列工商登记信息优化的一部分,充分体现了公司加速发展的战略布局与前瞻...
11:31
自2025年12月1日起,顺丰速运正式推出备受期待的“超时赔付”服务,为用户提供更可靠的快递保障。通过官方渠道下单的“顺丰特快”产品将全面享受此项服务,确保运输过程中的时效承诺。若因顺丰自身运输原因导致派送超时,将按照既定标准以现金形式进行赔付,让用户权益得到直接保障。 首批试点城市包括深圳、青岛等10个重点城市,覆盖上百条互寄核心流向,为用户带来切实的时效...
11:31
11月29日,济南一家普通的小饭馆里,上演了感人至深的温情故事。一位年轻小伙走进店内,点了一份最简单的白米饭。店长像往常一样准备收款,却在收款后意外发现,小伙身上仅剩下2元钱。原来,这位年轻人不知为何陷入困境,口袋里只剩下这微薄的2元钱。得知这一情况后,店长内心深受触动,毫不犹豫地决定为小伙免费炒一份菜。很快,一份热气腾腾的菜肴被端到了小伙面前。小伙先是愣住...
11:31
2025年上半年,安徽华恒生物科技股份有限公司正式向香港交易所主板递交了上市申请,计划通过资本市场募集发展资金,重点投向全球业务拓展、前沿技术研发以及产能规模升级三大核心领域。作为一家深耕生物基产品领域的创新型企业,华恒生物自2005年创立以来,始终致力于生物基材料的研发与生产,并于2021年成功登陆A股科创板,展现了其强大的市场竞争力与成长潜力。 近年来,...
11:31
2025年12月1日,备受瞩目的电动汽车品牌Faraday Future正式发布了其未来五年的宏伟战略规划。这一规划不仅展现了公司对未来市场的坚定信心,更明确了其全球化发展的具体路径。根据FF官方声明,在确保必要融资到位以及合作伙伴全力支持的前提下,Faraday Future与FX计划在未来五年内实现40万至50万台的生产与销售目标。这一目标并非空谈,而是...
11:31
特斯拉CEO埃隆·马斯克近日在社交平台X上惊喜揭晓了其人形机器人Optimus的复数命名规则。当网友好奇询问时,马斯克明确指出这款特斯拉自主研发的机器人单数形式为"Optimus",而复数形式则确定为"Optimi"。这一命名方式巧妙地沿用了拉丁语词汇的复数构成规则,更显其科学严谨性。 作为马斯克倾注心血的特斯拉未来核心产品,Optimus承载着颠覆传统制造...
11:30
豆包团队今日正式宣布推出备受期待的豆包手机助手技术预览版,这款创新产品是豆包与多家知名手机制造商深度合作的结晶,旨在为用户带来前所未有的高效交互体验和丰富功能。豆包手机助手依托于豆包大模型的强大智能核心,同时巧妙融合了手机厂商的系统授权,致力于打造一种全新的移动设备使用体验。目前,搭载豆包手机助手技术预览版的工程样机nubia M153已经开始限量发售,特别...
11:30
2025年12月1日,全球知名的显卡品牌撼讯PowerColor正式宣布,在中国大陆地区推出一项极具人性化的个人送保服务。这项服务专为所有在保修期内的国行AMD显卡用户设计,旨在提供更加便捷高效的售后服务体验。据悉,该服务主要面向显卡维修需求,但三包政策规定的退换货业务仍需用户联系原销售渠道处理,以确保符合国家相关法规要求。 特别需要强调的是,此次送保服务不...