如何为强大的AI模型建立一套真正公正的评估标准?尽管世界顶级AI ChatGPT能够通过各类考试,甚至生成令人真假难辨的回答,但它仍存在明显短板——难以解决简单的视觉逻辑问题。在一项测试中,屏幕上排列着色彩斑斓的方块图案,多数人能轻松找出连接规律,然而根据今年5月的研究报告,GPT-4在这类图案测试中的正确率仅为1/3,另一类图案的正确率更是低至3%。这项研究旨在为AI能力评估提供更科学的基准,帮助攻克GPT-4等大型语言模型的局限。论文作者Melanie Mitchell指出,当前AI领域正面临如何有效评估系统的难题。

AI评估的困境与突破
过去两三年间,大型语言模型(LLM)在多项任务上已超越传统AI系统。其核心原理是通过数十亿在线句子的统计相关性,在输入时预测最可能的下一个单词。对于聊天机器人,人类训练员的反馈进一步优化了其反应机制。这种基于海量人类语言数据训练的算法,展现出令人惊叹的广度。尽管其他AI系统可能在特定任务上表现优异,但它们必须针对特定问题进行训练,无法实现跨任务迁移。哈佛认知科学家Tomer Ullman指出,学界对LLM能力的解释存在两种截然观点:一部分人认为其成就源于推理或理解的突破,而包括Mitchell在内的研究者则持谨慎态度。

基准测试的价值与局限
揭示人类与AI能力差异的逻辑谜题测试,正成为评估AI的重要方向。纽约大学认知计算科学家Brenden Lake强调,这类基准测试能暴露机器学习系统的不足,并阐明人类智能的关键要素。如何测试LLM以及这些测试的意义,都是极具实践价值的研究课题。Mitchell特别指出,若要将LLM应用于医学、法律等领域,了解其能力边界至关重要。

图灵测试的争议与演进
长期以来,图灵测试被视为机器智能的权威评估标准。1950年,艾伦·图灵提出的”模仿游戏”设想中,人类法官需在计算机与真人对话中识别出机器。这一测试本质上是判断”机器能否思考”的哲学命题。然而图灵并未明确测试细节,导致标准模糊。AI21实验室的在线游戏显示,超过150万玩家仅能正确识别60%的机器人对话,熟悉LLM的研究人员表现更佳。谷歌软件工程师François Chollet建议,应让LLM面对训练数据中的变体场景,而非单纯测试其记忆能力。

基准测试的挑战与反思
当前AI评估更倾向于使用针对特定能力(语言、常识推理等)的基准测试,包括人类设计的学术考试。GPT-4在OpenAI设计的阅读理解、数学等测试中表现优异,并在30项人类考试中取得佳绩。但研究人员指出,模型可能已见过类似问题,导致测试结果存在”污染”问题。更深层的问题在于,LLM通过语言学习的方式与人类截然不同,无法像人那样在物理世界中体验语言与世界的联系。OpenAI研究员Nick Ryder强调,LLM测试分数不能等同于人类能力,其评估目的仅在于衡量模型在特定任务的表现。

逻辑谜题测试的兴起
2019年,Chollet创建的抽象和推理语料库(ARC)成为LLM测试的重要工具。该测试要求解题者根据方格图案变化规律预测下一个图形。尽管多个研究团队使用ARC测试LLM,但无一能接近人类表现。Mitchell团队在此基础上开发了ConceptARC,在难度和概念聚焦上进行了优化。该测试将GPT-4与400名人类参与者对比,人类平均正确率达91%,而GPT-4在各类测试中的得分均低于30%。

AI推理能力的真相
尽管GPT-4在ConceptARC中表现不佳,但研究显示它仍能解决部分未训练过的问题。Bowman指出,该测试存在视觉输入劣势——GPT-4接收数字数组表示的图像,而人类直接观察图像。综合其他实验结果,LLM已具备基本抽象推理能力,但能力水平参差不齐且远逊于人类。随着模型参数规模扩大,推理能力有望提升。如何全面评估LLM的抽象推理能力,仍是AI领域亟待解决的难题。

最新快讯

2025年12月06日

19:19
2025年12月5日,备受瞩目的战略合作签约仪式在山东隆重举行,标志着新风光电气与莱芜钢铁集团电子有限公司正式开启深度合作新篇章。双方高层领导及核心团队悉数出席,共同见证了这一具有里程碑意义的时刻 此次合作聚焦于高低压电气传动、电气自动化集成、智能装备研发以及信息化系统集成四大核心领域,旨在通过强强联合,实现技术与产业资源的优化配置。双方将充分发挥各自在...
19:19
2025年12月5日,备受瞩目的济源至新安高速公路关键控制性工程——黄河三峡大桥传来捷报,全部荷载试验圆满成功,标志着这条连接豫西北与豫东南的重要交通动脉正式进入通车冲刺阶段。这座雄踞黄河小浪底库区的桥梁,以其555米的主跨,创造了世界桥梁史上的新纪录,成为全球首座独塔地锚式回转缆悬索桥,展现了我国在超大跨径桥梁建设领域的卓越技术实力。 本次荷载试验规模空前...
19:19
2025年12月5日,备受瞩目的济源至新安高速公路关键控制性工程——黄河三峡大桥传来捷报,成功完成荷载试验,标志着这座桥梁的建设取得了重大突破。这座桥梁作为世界首创的独塔地锚式回转缆悬索桥,不仅在技术层面实现了创新突破,更为济源至新安高速的全线通车奠定了坚实基础,正式进入了最后冲刺阶段。 黄河三峡大桥的顺利贯通,将彻底改变黄河两岸的通行格局。大桥通车后,原本...
18:47
2025年12月6日,大众汽车集团首席执行官马蒂亚斯·奥博穆在德国《法兰克福汇报》的专访中,对保时捷电动化战略的进展与未来布局进行了深度解读。他特别强调,保时捷在电动化转型方面走在了行业前列,即将推出的全新电动卡宴车型有望成为行业标杆,为品牌注入新的活力。然而,奥博穆也坦言,中国和美国市场仍然是保时捷业绩的命脉所在,决定着品牌未来的发展高度。 针对近期中国销...
18:41
微新创想12月6日深度报道,近期网络流传出豆包手机助手可直接查询银行卡余额并绕过认证读取用户信息的虚假消息,引发广泛关注。对此,官方于今日下午紧急发布权威声明,明确辟谣并强调该功能已全面下线。以下是官方回应的详细内容: 关注到近日部分谣言声称豆包手机助手存在直接查询银行卡余额、绕过认证读取用户信息等违规操作,对此我们郑重说明如下: 首先,豆包手机助手在用户授...
18:15
2025年12月6日,备受瞩目的北京影响力企业家年会在盛大举行。在此次盛会中,零一万物CEO李开复发表了主题为《AI Agent引领企业变革》的精彩演讲,深入剖析了人工智能代理体(AI Agent)对企业运营模式的颠覆性影响。他指出,随着AI技术的飞速发展,未来企业将呈现出前所未有的灵活性,其组织架构将像搭积木一样快速重组,从传统的人力主导模式转变为由CEO...
18:15
2025年12月6日,别克旗下高端MPV子品牌至境正式推出全新旗舰车型——至境世家,官方指导价区间设定在43.99万至46.69万元。作为新能源家庭MPV市场的标杆之作,至境世家在空间布局、舒适体验、动力性能以及智能科技等多个维度上,均实现了全面超越,不仅超越了别克世纪、极氪009等主流竞品,更树立了全新的行业标杆。 新车整体尺寸长宽高分别为5260×202...
18:15
2025年12月6日 上海 —— AUDI品牌今日正式揭晓旗下第二款纯电旗舰SUV——奥迪E7X的惊艳外观设计。这款备受期待的车型基于备受瞩目的E SUV概念车打造,不仅高度还原了概念车的核心设计语言,更在细节上实现了创新突破。作为一款纯电大型SUV,奥迪E7X拥有长达5,049毫米的震撼车身尺寸,配合3,060毫米的豪华轴距,为驾乘者带来超乎想象的宽敞空间...
18:15
2025年12月6日,豆包手机助手正式发布公告,宣布全面下线所有涉及银行及互联网支付类APP的操作功能。针对近期网络上广泛流传的“豆包可绕过认证查询银行卡余额”的谣言,豆包方面迅速作出澄清,强调所有操作流程均需用户主动授权,并必须完成密码输入、人脸识别等多重验证步骤,坚决杜绝任何形式的越权访问行为。 为切实保障用户的资金安全,豆包平台在原有操作流程中已设...
17:45
2025年12月6日,蓝箭航天正式公布了朱雀三号火箭一子级回收飞行的关键技术验证细节,标志着我国在液氧甲烷可回收火箭领域迈出了重要一步。此次试验中,火箭在完成一级分离后,成功经历了超音速再入气动滑行阶段,并成功突破了最大动压环境下的三大核心技术难题:热防护系统、气动布局优化以及姿态精确控制。 在再入过程中,朱雀三号火箭展现出卓越的制导能力,无论是再入点火阶...
17:45
2025年12月6日,美国国家公路交通安全管理局正式发布安全召回公告,福特汽车公司因倒车灯系统存在潜在故障,在美国市场召回1195辆2025款林肯领航员车型。此次召回行动的起因是车辆后灯条的外透镜或焊缝部位可能存在细微裂纹。这些裂纹在长期使用过程中可能因外界因素导致水分渗透并积聚,进而引发倒车灯功能失效或出现异常闪烁现象,严重时甚至可能完全中断倒车灯的照明功...
17:45
2025年12月6日,金融监管机构正式发布《基金管理公司绩效考核管理指引》的征求意见稿,这一重要文件为基金行业的激励机制改革提供了明确方向。意见稿明确指出,基金公司未来可以灵活运用股权、期权、限制性股权以及分红权等多种中长期激励措施,通过制度设计将公司整体发展与基金份额持有人的切身利益紧密相连,从而构建起更加科学长效的激励约束机制。 意见稿详细规定了基金公司...