如何为强大的AI模型建立一套真正公正的评估标准?尽管世界顶级AI ChatGPT能够通过各类考试,甚至生成令人真假难辨的回答,但它仍存在明显短板——难以解决简单的视觉逻辑问题。在一项测试中,屏幕上排列着色彩斑斓的方块图案,多数人能轻松找出连接规律,然而根据今年5月的研究报告,GPT-4在这类图案测试中的正确率仅为1/3,另一类图案的正确率更是低至3%。这项研究旨在为AI能力评估提供更科学的基准,帮助攻克GPT-4等大型语言模型的局限。论文作者Melanie Mitchell指出,当前AI领域正面临如何有效评估系统的难题。

AI评估的困境与突破
过去两三年间,大型语言模型(LLM)在多项任务上已超越传统AI系统。其核心原理是通过数十亿在线句子的统计相关性,在输入时预测最可能的下一个单词。对于聊天机器人,人类训练员的反馈进一步优化了其反应机制。这种基于海量人类语言数据训练的算法,展现出令人惊叹的广度。尽管其他AI系统可能在特定任务上表现优异,但它们必须针对特定问题进行训练,无法实现跨任务迁移。哈佛认知科学家Tomer Ullman指出,学界对LLM能力的解释存在两种截然观点:一部分人认为其成就源于推理或理解的突破,而包括Mitchell在内的研究者则持谨慎态度。

基准测试的价值与局限
揭示人类与AI能力差异的逻辑谜题测试,正成为评估AI的重要方向。纽约大学认知计算科学家Brenden Lake强调,这类基准测试能暴露机器学习系统的不足,并阐明人类智能的关键要素。如何测试LLM以及这些测试的意义,都是极具实践价值的研究课题。Mitchell特别指出,若要将LLM应用于医学、法律等领域,了解其能力边界至关重要。

图灵测试的争议与演进
长期以来,图灵测试被视为机器智能的权威评估标准。1950年,艾伦·图灵提出的”模仿游戏”设想中,人类法官需在计算机与真人对话中识别出机器。这一测试本质上是判断”机器能否思考”的哲学命题。然而图灵并未明确测试细节,导致标准模糊。AI21实验室的在线游戏显示,超过150万玩家仅能正确识别60%的机器人对话,熟悉LLM的研究人员表现更佳。谷歌软件工程师François Chollet建议,应让LLM面对训练数据中的变体场景,而非单纯测试其记忆能力。

基准测试的挑战与反思
当前AI评估更倾向于使用针对特定能力(语言、常识推理等)的基准测试,包括人类设计的学术考试。GPT-4在OpenAI设计的阅读理解、数学等测试中表现优异,并在30项人类考试中取得佳绩。但研究人员指出,模型可能已见过类似问题,导致测试结果存在”污染”问题。更深层的问题在于,LLM通过语言学习的方式与人类截然不同,无法像人那样在物理世界中体验语言与世界的联系。OpenAI研究员Nick Ryder强调,LLM测试分数不能等同于人类能力,其评估目的仅在于衡量模型在特定任务的表现。

逻辑谜题测试的兴起
2019年,Chollet创建的抽象和推理语料库(ARC)成为LLM测试的重要工具。该测试要求解题者根据方格图案变化规律预测下一个图形。尽管多个研究团队使用ARC测试LLM,但无一能接近人类表现。Mitchell团队在此基础上开发了ConceptARC,在难度和概念聚焦上进行了优化。该测试将GPT-4与400名人类参与者对比,人类平均正确率达91%,而GPT-4在各类测试中的得分均低于30%。

AI推理能力的真相
尽管GPT-4在ConceptARC中表现不佳,但研究显示它仍能解决部分未训练过的问题。Bowman指出,该测试存在视觉输入劣势——GPT-4接收数字数组表示的图像,而人类直接观察图像。综合其他实验结果,LLM已具备基本抽象推理能力,但能力水平参差不齐且远逊于人类。随着模型参数规模扩大,推理能力有望提升。如何全面评估LLM的抽象推理能力,仍是AI领域亟待解决的难题。

最新快讯

2025年11月21日

15:40
2025年11月21日,领先的综合医疗保健提供商Aster DM Healthcare正式宣布成功募集7215万美元战略投资,标志着其医疗健康事业迈入新的发展阶段。作为区域内重要的医疗服务机构,Aster DM Healthcare目前运营着约19家现代化医院、10家专业诊所、200多家连锁药房以及255家高精度诊断实验室,提供从基础医疗服务到尖端四级医疗的...
15:40
2025年11月21日,Token Cat Limited与鸥亿正式达成战略合作,双方共同签署了战略合作框架协议。此次合作将聚焦于全球跨境供应链云平台的打造,旨在通过协同发展进一步拓展海外市场业务。作为业内领先的企业,双方将充分发挥各自优势,整合资源与技术能力,致力于提升跨境供应链的整体效率与竞争力。 此次战略合作的核心目标是在未来三年内实现累计海外销售...
15:40
2025年11月21日,君亭酒店正式发布重大战略投资公告,宣布将以7980万元人民币的价格收购君澜管理公司剩余21%的股权。随着此次交易的顺利达成,君亭酒店将成功实现对君澜酒店的全面控股,持有其100%的股权。作为国内高端酒店行业的领军品牌,君澜酒店自1998年创立以来,凭借卓越的品牌影响力和市场口碑,在业内树立了良好的标杆形象。此次收购是君亭酒店发展历程中...
15:40
2025年11月21日,深圳迎来一场跨境电商领域的重磅活动——由深圳市商务局携手1688共同主办的“AI to B跨境平台对接会”在鹏城盛大举行。千余名来自大湾区的高端制造企业代表齐聚一堂,共商数字化出海大计,现场气氛热烈非凡。 在此次对接会上,众多制造企业与企业1688跨境平台达成战略合作,集中签约入驻。这一批优质企业的加入,将进一步丰富平台生态,为全...
15:40
2025年11月20日,汽车行业迎来重磅消息。据权威汽车媒体AutoCar独家报道,梅赛德斯-奔驰正式宣布将推出全新纯电E级轿车,这款备受期待的车型将全面取代现款EQE,成为梅赛德斯-奔驰在E级轿车细分市场的全新旗舰。新车将延续经典的德系三厢轿车设计风格,回归传统优雅的车身比例,以极致的空间利用和卓越的舒适性为核心卖点,为消费者带来无与伦比的驾乘体验。 据悉...
15:40
2025年11月21日,备受瞩目的生物制药企业新桥生物正式宣布旗下子公司Visara的两项关键人事任命,标志着公司在眼科创新疗法领域再迎重要发展里程碑。Cadmus C Rich博士凭借其卓越的医学背景与丰富的商业管理经验,被正式任命为首席医学官(CMO)。作为公司临床开发与医学事务的核心领导者,Rich博士将全面负责全球临床研究项目的设计与执行,以及医学策...
15:40
2025年11月20日,汽车媒体CarBuzz在德国纽博格林赛道捕捉到了奥迪全新小型纯电原型车的精彩瞬间。这款原型车的设计语言令人瞩目,其高耸圆润的车顶轮廓巧妙致敬了传奇车型A2的经典风格,同时融合了独立三角窗与分体式LED灯组等标志性元素,彰显出独特的个性和复古与现代的完美融合。 车身造型方面,新车巧妙地融合了掀背车与跨界车型的设计元素,既保留了掀背车灵动...
15:40
瑞典创新企业Epishine于当地时间17日正式宣布一项突破性合作:韩国电子巨头Ohsung Electronics将在其未来产品线中全面应用Epishine的印刷式有机太阳能电池技术。这项先进的薄膜光伏技术具有独特双面采光设计,能够高效捕获室内自然光能,为谷歌Google TV配套遥控器提供稳定电力支持。 这项技术革新将彻底改变传统遥控器的供电模式。通过集...
15:26
声明:本文源自微信公众号新榜,作者云飞扬1993,经站长之家授权转载发布。近期公开活动上,知名导演白一骢透露红果高层曾表示:"相比不断提纯用户的长视频平台,红果反而会持续补贴平台上表现不佳的内容。"这一观点得到市场验证——今年红果男频短剧强势崛起,多部作品突破百万收藏量。其中《一品布衣》累计收藏超540万,全网播放量超24亿;《冒姓琅琊》品质媲美长剧,引发跨...
15:26
声明:本文源自微信公众号TopKlout克劳锐,作者小羊授权站长之家转载发布。曾经直播间里响彻的“321,上链接!”吆喝声,正被“第3集,男主送女主XX品牌明星同款限量包”的剧情种草悄然取代。当流量红利逐渐消退,获客成本逐年攀升,电商平台的竞争早已超越单纯的价格战,转向了短剧带货的内容战。上链接不再是直白的推销,而是巧妙融入剧情的场景化种草。红果短剧率先开启...
15:26
元宝重磅推出全新功能“一句话生视频”,开启全民视频创作新时代。这项突破性能力的发布标志着视频制作已彻底摆脱专业门槛,普通用户只需输入一句话或一张静态图片,即可一键生成生动有趣的视频内容。 该功能的创新之处在于其强大的技术内核——基于腾讯最新开源的HunyuanVideo1.5模型。通过深度学习算法,系统能够精准捕捉用户输入的语义信息或图片元素,并将其转化...
15:06
2025年11月21日,亚马逊正式公布一项雄心勃勃的投资计划,宣布将在美国密西西比州沃伦县打造一个全新的数据中心园区,专注于支持人工智能和云计算业务的发展。据悉,亚马逊将至少投入30亿美元巨资用于该项目的建设,这一投资不仅将显著提升亚马逊云服务(AWS)的基础设施能力,还将有效满足全球范围内日益激增的AI计算需求。 该项目预计将直接创造至少200个高技术就业...