ChatGPT难破逻辑谜题 AI评估新标准挑战传统

2023-09-02 11:10:50 互联网 30 次阅读

如何为强大的AI模型建立一套真正公正的评估标准？尽管世界顶级AI ChatGPT能够通过各类考试，甚至生成令人真假难辨的回答，但它仍存在明显短板——难以解决简单的视觉逻辑问题。在一项测试中，屏幕上排列着色彩斑斓的方块图案，多数人能轻松找出连接规律，然而根据今年5月的研究报告，GPT-4在这类图案测试中的正确率仅为1/3，另一类图案的正确率更是低至3%。这项研究旨在为AI能力评估提供更科学的基准，帮助攻克GPT-4等大型语言模型的局限。论文作者Melanie Mitchell指出，当前AI领域正面临如何有效评估系统的难题。

AI评估的困境与突破
过去两三年间，大型语言模型（LLM）在多项任务上已超越传统AI系统。其核心原理是通过数十亿在线句子的统计相关性，在输入时预测最可能的下一个单词。对于聊天机器人，人类训练员的反馈进一步优化了其反应机制。这种基于海量人类语言数据训练的算法，展现出令人惊叹的广度。尽管其他AI系统可能在特定任务上表现优异，但它们必须针对特定问题进行训练，无法实现跨任务迁移。哈佛认知科学家Tomer Ullman指出，学界对LLM能力的解释存在两种截然观点：一部分人认为其成就源于推理或理解的突破，而包括Mitchell在内的研究者则持谨慎态度。

基准测试的价值与局限
揭示人类与AI能力差异的逻辑谜题测试，正成为评估AI的重要方向。纽约大学认知计算科学家Brenden Lake强调，这类基准测试能暴露机器学习系统的不足，并阐明人类智能的关键要素。如何测试LLM以及这些测试的意义，都是极具实践价值的研究课题。Mitchell特别指出，若要将LLM应用于医学、法律等领域，了解其能力边界至关重要。

图灵测试的争议与演进
长期以来，图灵测试被视为机器智能的权威评估标准。1950年，艾伦·图灵提出的”模仿游戏”设想中，人类法官需在计算机与真人对话中识别出机器。这一测试本质上是判断”机器能否思考”的哲学命题。然而图灵并未明确测试细节，导致标准模糊。AI21实验室的在线游戏显示，超过150万玩家仅能正确识别60%的机器人对话，熟悉LLM的研究人员表现更佳。谷歌软件工程师François Chollet建议，应让LLM面对训练数据中的变体场景，而非单纯测试其记忆能力。

基准测试的挑战与反思
当前AI评估更倾向于使用针对特定能力（语言、常识推理等）的基准测试，包括人类设计的学术考试。GPT-4在OpenAI设计的阅读理解、数学等测试中表现优异，并在30项人类考试中取得佳绩。但研究人员指出，模型可能已见过类似问题，导致测试结果存在”污染”问题。更深层的问题在于，LLM通过语言学习的方式与人类截然不同，无法像人那样在物理世界中体验语言与世界的联系。OpenAI研究员Nick Ryder强调，LLM测试分数不能等同于人类能力，其评估目的仅在于衡量模型在特定任务的表现。

逻辑谜题测试的兴起
2019年，Chollet创建的抽象和推理语料库（ARC）成为LLM测试的重要工具。该测试要求解题者根据方格图案变化规律预测下一个图形。尽管多个研究团队使用ARC测试LLM，但无一能接近人类表现。Mitchell团队在此基础上开发了ConceptARC，在难度和概念聚焦上进行了优化。该测试将GPT-4与400名人类参与者对比，人类平均正确率达91%，而GPT-4在各类测试中的得分均低于30%。

AI推理能力的真相
尽管GPT-4在ConceptARC中表现不佳，但研究显示它仍能解决部分未训练过的问题。Bowman指出，该测试存在视觉输入劣势——GPT-4接收数字数组表示的图像，而人类直接观察图像。综合其他实验结果，LLM已具备基本抽象推理能力，但能力水平参差不齐且远逊于人类。随着模型参数规模扩大，推理能力有望提升。如何全面评估LLM的抽象推理能力，仍是AI领域亟待解决的难题。