如何为强大的AI模型建立一套真正公正的评估标准?尽管世界顶级AI ChatGPT能够通过各类考试,甚至生成令人真假难辨的回答,但它仍存在明显短板——难以解决简单的视觉逻辑问题。在一项测试中,屏幕上排列着色彩斑斓的方块图案,多数人能轻松找出连接规律,然而根据今年5月的研究报告,GPT-4在这类图案测试中的正确率仅为1/3,另一类图案的正确率更是低至3%。这项研究旨在为AI能力评估提供更科学的基准,帮助攻克GPT-4等大型语言模型的局限。论文作者Melanie Mitchell指出,当前AI领域正面临如何有效评估系统的难题。

AI评估的困境与突破
过去两三年间,大型语言模型(LLM)在多项任务上已超越传统AI系统。其核心原理是通过数十亿在线句子的统计相关性,在输入时预测最可能的下一个单词。对于聊天机器人,人类训练员的反馈进一步优化了其反应机制。这种基于海量人类语言数据训练的算法,展现出令人惊叹的广度。尽管其他AI系统可能在特定任务上表现优异,但它们必须针对特定问题进行训练,无法实现跨任务迁移。哈佛认知科学家Tomer Ullman指出,学界对LLM能力的解释存在两种截然观点:一部分人认为其成就源于推理或理解的突破,而包括Mitchell在内的研究者则持谨慎态度。

基准测试的价值与局限
揭示人类与AI能力差异的逻辑谜题测试,正成为评估AI的重要方向。纽约大学认知计算科学家Brenden Lake强调,这类基准测试能暴露机器学习系统的不足,并阐明人类智能的关键要素。如何测试LLM以及这些测试的意义,都是极具实践价值的研究课题。Mitchell特别指出,若要将LLM应用于医学、法律等领域,了解其能力边界至关重要。

图灵测试的争议与演进
长期以来,图灵测试被视为机器智能的权威评估标准。1950年,艾伦·图灵提出的”模仿游戏”设想中,人类法官需在计算机与真人对话中识别出机器。这一测试本质上是判断”机器能否思考”的哲学命题。然而图灵并未明确测试细节,导致标准模糊。AI21实验室的在线游戏显示,超过150万玩家仅能正确识别60%的机器人对话,熟悉LLM的研究人员表现更佳。谷歌软件工程师François Chollet建议,应让LLM面对训练数据中的变体场景,而非单纯测试其记忆能力。

基准测试的挑战与反思
当前AI评估更倾向于使用针对特定能力(语言、常识推理等)的基准测试,包括人类设计的学术考试。GPT-4在OpenAI设计的阅读理解、数学等测试中表现优异,并在30项人类考试中取得佳绩。但研究人员指出,模型可能已见过类似问题,导致测试结果存在”污染”问题。更深层的问题在于,LLM通过语言学习的方式与人类截然不同,无法像人那样在物理世界中体验语言与世界的联系。OpenAI研究员Nick Ryder强调,LLM测试分数不能等同于人类能力,其评估目的仅在于衡量模型在特定任务的表现。

逻辑谜题测试的兴起
2019年,Chollet创建的抽象和推理语料库(ARC)成为LLM测试的重要工具。该测试要求解题者根据方格图案变化规律预测下一个图形。尽管多个研究团队使用ARC测试LLM,但无一能接近人类表现。Mitchell团队在此基础上开发了ConceptARC,在难度和概念聚焦上进行了优化。该测试将GPT-4与400名人类参与者对比,人类平均正确率达91%,而GPT-4在各类测试中的得分均低于30%。

AI推理能力的真相
尽管GPT-4在ConceptARC中表现不佳,但研究显示它仍能解决部分未训练过的问题。Bowman指出,该测试存在视觉输入劣势——GPT-4接收数字数组表示的图像,而人类直接观察图像。综合其他实验结果,LLM已具备基本抽象推理能力,但能力水平参差不齐且远逊于人类。随着模型参数规模扩大,推理能力有望提升。如何全面评估LLM的抽象推理能力,仍是AI领域亟待解决的难题。

最新快讯

2025年08月12日

23:54
2025年8月12日,科技界掀起了一场惊涛骇浪。人工智能领域的领军企业Perplexity突然向全球最大的搜索引擎巨头谷歌Chrome投下了一枚价值高达345亿美元的收购重磅炸弹。这一出人意料的举动瞬间引爆了整个业界的热议,无数目光聚焦于这场可能重塑全球浏览器市场版图的商业博弈。值得注意的是,截至目前,谷歌方面尚未就这一天价要约发布任何官方声明,市场各方正拭...
23:54
2025年8月12日,北京时间,国际市场银价迎来显著上涨,纽约期银价格成功突破38美元/盎司的关键心理关口,当日涨幅高达0.56%。这一积极走势的背后,是市场对贵金属需求呈现的明显回暖态势。多位行业分析师指出,当前全球经济环境仍存在诸多不确定性因素,这使得白银作为传统避险资产的价值得到进一步凸显,从而吸引了大量投资者关注。随着全球经济形势的复杂多变,白银的避...
23:54
2025年8月12日,大宗商品期货市场夜盘交易落下帷幕,多数品种录得上涨行情。数据显示,菜籽粕主力合约强势涨停,成为当日市场最耀眼的明星;菜籽油同样表现不俗,涨幅超过3%,展现出强劲的上涨动能。此外,焦煤、棕榈油等品种也纷纷上涨,涨幅均超过1%,市场整体呈现普涨格局。豆粕、棉纱等品种虽涨幅有限,但同样小幅上扬,为市场增添了一抹暖色。与之形成对比的是,PTA、...
23:54
2025年7月,波音公司交机量达到48架,其中737Max系列贡献了37架,环比下降12架,显示出市场需求的微妙变化。同期,波音成功斩获31份新订单,包括30架737Max和1架787机型,这一成绩不仅印证了波音产品线的持续吸引力,也折射出全球航空市场对高效能飞机的迫切需求。 这一数据背后,是波音公司对生产与交付节奏的精准把控。面对复杂多变的航空市场环境...
23:54
2025年8月12日,一则重磅消息在加密货币行业掀起波澜:据多方知情人士透露,知名加密货币交易所Bullish(BLSH)的首次公开募股(IPO)正迎来史无前例的热潮,其超额认购倍数已突破20倍大关。更令人瞩目的是,此次IPO的发行价预计将超越此前32至33美元的定价区间,有望达到更高水平。这一惊人表现不仅彰显了Bullish在行业内的领先地位,更折射出全球...
23:54
近日,广州市属国企珠实地产传来重磅消息,正式启动"保价行动",旗下7个热门楼盘郑重承诺"买贵即补差价",保价期限直抵2025年底。这一创新营销策略迅速引发市场热议,被视为房企应对7月广州楼市成交量下滑的积极举措。 此次"保价行动"的核心亮点在于,购房者若在保价期内购入指定楼盘,若未来市场价格上涨,开发商将退还差价。这一举措无疑为当前观望中的购房者注入了一剂强...
23:54
特斯拉近日宣布了一项重要的战略调整,正式终止其备受瞩目的超级计算机项目,并对原项目团队进行人员重组与重新分配。这一决策背后,是公司对现有业务布局的深度优化,旨在将资源集中于更具增长潜力的核心领域。据悉,该项目自启动以来,一直致力于研发高性能计算系统,为自动驾驶技术的突破性进展提供强大的算力支持。然而,随着公司整体战略的演变,管理层经过审慎评估后认为,当前资源...
23:54
2025年8月12日,Highview Merger Corp.(HVMCU)在美国证券交易所成功举行首次公开募股(IPO),开盘价报10.02美元,较原定发行价10美元略高。这一里程碑事件标志着HVMCU正式叩开美国资本市场大门,开启其公开交易的新篇章。作为一家首次公开募股的公司,此次IPO不仅为其募集了宝贵的资金,更为其未来发展奠定了坚实基础。 市场分析...
23:54
2025年8月12日,备受瞩目的McKinley Acquisition Corp.(MKLYU)在美国成功敲钟,正式拉开首次公开募股(IPO)的序幕。开盘当日,MKLYU股价以10美元的平价开盘,这一价格精准地反映了市场对该公司的初步估值,也预示着其未来发展的巨大潜力。此次IPO不仅为MKLYU打通了融资渠道,更标志着其正式迈入资本市场,成为投资者眼中的新...
23:54
受超强台风“杨柳”外围环流影响,预计8月13日至15日,我国珠江流域将迎来一轮强降雨天气过程。福建南部、广东中东部等核心区域预计将迎来50至200毫米的降水,局部地区雨量可能更大。此次降雨过程不仅范围广,强度大,更对流域内的河流水位造成显著影响。西江、北江等主要河流水位或将明显上涨,部分中小河流甚至可能出现超警洪水,同时山洪、滑坡、泥石流等地质灾害风险也将显...
23:54
2025年8月12日,上纬新材正式发布重要公告,披露了金风投控的最新减持动态。自7月9日起至公告发布当日,金风投控通过集中竞价交易系统累计减持上纬新材股份158.44万股,导致其直接持股比例从原有水平大幅下降至5.00%。这一操作不仅调整了双方的股权结构,也引发了市场的高度关注。 除了上述减持行为外,金风投控还计划以协议转让方式出售公司4.40%的股份。值得...
23:54
乐舒适有限公司于8月12日正式向香港交易所提交了首次公开募股(IPO)申请材料,标志着这家企业迈向资本市场的重要里程碑。此次IPO计划由中金公司、中信证券以及广发证券(香港)联合担任联席保荐人,共同为该公司的上市之路保驾护航。通过此次公开募股,乐舒适有限公司计划募集大量资金,用于支持公司未来的业务拓展、技术创新以及市场扩张,进一步巩固其在行业内的领先地位。这...