DeepMind新图灵测试：AI能否10万变百万挑战人类智能

2023-06-22 07:44:21 互联网 135 次阅读

微新创想（Idea2003.com）6月21日消息：DeepMind联合创始人Mustafa Suleyman在其即将出版的著作《即将到来的浪潮：技术、权力和21世纪最大的困境》中，对传统的图灵测试提出了颠覆性观点。他认为这一经典测试已无法适应人工智能发展的现实需求，并创新性地提出了”人工智能可行性”（ACI）这一全新基准。该基准的核心在于评估AI独立完成复杂任务的能力，而非仅仅停留在语言交互层面。

Suleyman设计的ACI测试极具实践性：将ChatGPT、Google Bard等先进聊天机器人置于”现代图灵测试”环境中，赋予其10万美元的初始资金，要求在规定时间内将其增值至100万美元。这一测试不仅考察AI的语言能力，更关键的是检验其商业决策、市场分析、产品策划、供应链整合等多维度综合能力，从而更全面地评估其逼近人类智能的水平。他预测，这一里程碑将在未来两年内被AI突破，届时自主创造并销售产品将成为AI的常规能力，对全球经济格局产生深远影响。

在书中，Suleyman系统性地驳斥了传统图灵测试的局限性。他指出，该测试”不清楚这是否是有意义的里程碑”，因为它无法有效衡量AI系统的真实能力层级，更无法判断其是否具备人类特有的复杂内心独白和抽象时间规划能力——这些正是人类智能的核心要素。图灵测试由艾伦·图灵于20世纪50年代提出，其初衷是通过语言交互判断机器是否具备人类智能。测试中，人类评估者无法分辨对话对象是真人还是机器，若机器能通过这一测试，即被视为通过。

Suleyman的创新之处在于，他建议停止将AI智能与人类进行直接比较，而是转向更务实的评估方式——为AI设定短期具体目标，并观察其能否在极低人类干预下独立完成。这种”人工智能可行性”（ACI）评估模式，更符合当前AI技术发展的实际阶段。为实现ACI，Suleyman详细阐述了测试流程：AI需在限定时间内完成电子商务项目的全周期操作，包括市场调研、产品策划、寻找制造商、建立销售渠道等关键环节。他强调：”我们不仅关心机器可以说什么，还关心它可以做什么”，这一理念标志着AI评估标准进入了一个全新的发展阶段。