微新创想(Idea2003.com)6月21日 消息:DeepMind联合创始人Mustafa Suleyman在其即将出版的著作《即将到来的浪潮:技术、权力和21世纪最大的困境》中,对传统的图灵测试提出了颠覆性观点。他认为这一经典测试已无法适应人工智能发展的现实需求,并创新性地提出了”人工智能可行性”(ACI)这一全新基准。该基准的核心在于评估AI独立完成复杂任务的能力,而非仅仅停留在语言交互层面。

Suleyman设计的ACI测试极具实践性:将ChatGPT、Google Bard等先进聊天机器人置于”现代图灵测试”环境中,赋予其10万美元的初始资金,要求在规定时间内将其增值至100万美元。这一测试不仅考察AI的语言能力,更关键的是检验其商业决策、市场分析、产品策划、供应链整合等多维度综合能力,从而更全面地评估其逼近人类智能的水平。他预测,这一里程碑将在未来两年内被AI突破,届时自主创造并销售产品将成为AI的常规能力,对全球经济格局产生深远影响。

在书中,Suleyman系统性地驳斥了传统图灵测试的局限性。他指出,该测试”不清楚这是否是有意义的里程碑”,因为它无法有效衡量AI系统的真实能力层级,更无法判断其是否具备人类特有的复杂内心独白和抽象时间规划能力——这些正是人类智能的核心要素。图灵测试由艾伦·图灵于20世纪50年代提出,其初衷是通过语言交互判断机器是否具备人类智能。测试中,人类评估者无法分辨对话对象是真人还是机器,若机器能通过这一测试,即被视为通过。

Suleyman的创新之处在于,他建议停止将AI智能与人类进行直接比较,而是转向更务实的评估方式——为AI设定短期具体目标,并观察其能否在极低人类干预下独立完成。这种”人工智能可行性”(ACI)评估模式,更符合当前AI技术发展的实际阶段。为实现ACI,Suleyman详细阐述了测试流程:AI需在限定时间内完成电子商务项目的全周期操作,包括市场调研、产品策划、寻找制造商、建立销售渠道等关键环节。他强调:”我们不仅关心机器可以说什么,还关心它可以做什么”,这一理念标志着AI评估标准进入了一个全新的发展阶段。

最新快讯

2026年01月14日

15:26
声明:本文来自于微信公众号 娱乐独角兽,作者:Mia,授权站长之家转载发布。免费短剧平台仍在一路狂奔中。根据QuestMobile发布的2025年在线视频APP月活用户规模TOP10统计,短剧类APP的爆发式增长尤为引人瞩目,其中河马剧场以月活5158万位列第七,同比增长99.4%,已经超过了咪咕视频等平台。截至12月17日的1...
15:26
声明:本文来自于微信公众号 窄播,作者:麦琦,授权站长之家转载发布。作为全年最集中的家庭消费决策场景,年货节从来都是商家的必争之地。在国人心中,年货既是春节刚需,也承载着远超商品本身的情感重量。谁能提供更具共鸣感的年货体验,谁就有机会抢占春节消费的卡位,由此带来的口碑与复购还会延续到节后的经营中。但如今的消费市场早已进入供给极大...
15:25
声明:本文来自于微信公众号 白鲸出海,作者:张凯然,授权站长之家转载发布。前几天,我们曾在《教“美国人”学英语,单款产品月入千万?》观察过一个“反常识”的产品教美国人学英语,月入260万美元。这还没过一周时间,又有一款面向美国市场的语言学习产品,冲上了美国下载总榜 Top100。Vocabulary 一度登上美国 iOS 下载总...
15:25
当地时间2026年1月13日,Python软件基金会(PSF)宣布与AI公司Anthropic达成为期两年的合作,获得150万美元资助。资金将用于支持PSF运营,重点提升Python生态系统的安全性,包括对CPython解释器和PyPI包索引的关键安全改进。此举旨在应对人工智能领域潜在的供应链安全风险,保障全球Python用户的安全使用环境。
15:25
2026年1月14日,清华大学、中国人民大学、面壁智能与OpenBMB社区联合推出4B参数智能体模型AgentCPM-Explore。该模型在GAIA、HLE等多类评测中达到同尺寸SOTA水平,性能超越部分8B级模型,并比肩30B级以上及闭源模型,在Xbench-DeepResearch中表现优于OpenAI-o3和Claude-4.5-Sonnet。模型...
15:25
2026年1月14日,中国汽车工业经济技术信息研究所发布《2025城市NOA汽车辅助驾驶研究报告》。报告显示,2025年1至11月,我国搭载城市NOA功能的乘用车累计销量达312.9万辆,占乘用车上险量的15.1%。其中,起售价30万元以下车型中,搭载城市NOA的销量占比超68.9%,主流品牌中有28.8%以上已布局该功能。报告建议加快出台自动驾驶分级管理...
15:25
2026年1月14日,谷歌推出专为医疗场景设计的轻量化AI模型MedGemma 1.5 4B及语音识别模型MedASR。该模型可本地部署,支持文本与CT、MRI等三维影像数据的分析推理,准确率较前代提升。MedASR在医疗对话转录中错误率仅为5.2%,优于同类产品,并可与MedGemma系列集成。谷歌已免费开源MedGemma系列,助力开发者构建专业化医疗...
15:25
2026年1月14日,据最新报道,苹果计划于今年春季推出升级版Siri,借助Gemini技术支持实现更智能的交互。新版Siri将支持问答、讲故事、情感支持及预订行程等任务,并可在备忘录中生成食谱等文档。今年6月WWDC大会将公布更多功能,如记忆对话历史和基于日历主动建议。苹果已对Gemini模型进行微调,确保回应风格符合品牌要求。该功能预计随iOS 26....
15:25
2026年1月,DB-Engines发布最新数据库流行度排名,复盘2025年技术趋势。Oracle全年表现强势,蝉联榜首;MySQL和Microsoft SQL Server分列二、三。PostgreSQL成为增长最快的开源关系型数据库,位列第四。MongoDB在非关系型数据库中保持领先,Snowflake和Databricks在云原生分析与AI场景中快速...
15:25
2026年1月14日,文远知行正式推出“文远出行”微信小程序,用户无需下载App即可在广州、北京等运营区域呼叫无人驾驶出租车。该小程序依托微信平台,降低使用门槛,提升用户体验便捷性,进一步推动公众对无人驾驶技术的认知与信任。此举标志着文远知行在智慧出行服务领域的布局迈入新阶段。
15:25
2026年1月14日,北京——在“京东年菜年货节”启动仪式上,京东生鲜与云浮文旅集团、河北淳珍科技有限公司签署合作协议。此次合作由京东生鲜联合北京市新发地、北京中视完美国际传媒共同参与,旨在推动政企协作与产销对接,助力河北淳珍科技实现单日销售额破千万目标。合作将依托京东平台资源,提升地方优质农产品的市场流通效率与品牌影响力,进一步拓展年货消费市场。
15:25
2026年1月14日,惠科在CES 2026上推出全球首款峰值亮度达1800nit的36.5英寸8K Mini LED显示器。该产品采用2000级分区背光技术,支持100% DCI-P3色域,提升对比度并抑制光晕,专为创意设计领域打造。同时,惠科还展示了笔记本用ACR防眩光技术、低反射率屏幕、类自然光护眼方案及宽刷新率显示技术,展现其在显示领域的多项创新进...