当GPT-5.2在一项严苛的通用智能测试中首次超越人类平均水平,人工智能界迎来一个既振奋又警醒的转折点。OpenAI联合创始人Greg Brockman近日宣布,基于GPT-5.2构建的系统Poetiq(GPT-5.2X-High)在最新版ARC-AGI-2基准测试中取得75%的准确率,显著高于人类平均的60%。这一突破不仅刷新纪录,更直击大模型长期被诟病的“性能悖论”——在标准测试中技能爆表,落地应用却频频掉链子。

image.png

ARC-AGI-2(Abstraction and Reasoning Corpus for Artificial General Intelligence-Version2)由Keras之父François Chollet团队于2025年推出,其设计哲学极为纯粹:杜绝刷题,只测真推理。该基准不提供训练集,每道题目都是全新、未见过的抽象任务,要求AI像人类一样通过观察少量示例,归纳规则、迁移知识并完成推理。这意味着,任何依赖记忆或统计拟合的模型都将在此失效——它专为检验“真正的通用智能”而生。

此次登顶的并非OpenAI官方模型,而是一家名为Poetiq的初创公司所构建的“元系统”。Poetiq并未重新训练GPT-5.2,而是通过精巧的软件架构,自动调度、组合并引导现有大模型完成复杂推理流程。结果令人震惊:在未改动基础模型的前提下,系统性能从接近人类水平的60%一举跃升至75%,每题成本不足8美元。相比之下,主打“深度思考”的Gemini3Deep Think(Preview)仅得46%,且成本更高。

image.png

这一15个百分点的飞跃,揭示了一个关键趋势:**AI的下一重天花板,不在算力堆砌,而在系统设计与人机协同**。恰在此时,OpenAI官方在X平台发布2026年战略预测,明确提出“能力过剩”(Capability Overhang)概念——当前大模型“能做的事”远超人们“实际用它做的事”。模型已具备博士级专业能力,却仍被当作高级搜索引擎使用;企业采购了AI,却未重构任何工作流程。

OpenAI由此将重心转向应用层:2026年将大力投入医疗、商业与日常场景的系统集成,强调“教人用AI”与“让AI融入流程”。正如社区热议所言:“真正的挑战不是AI不够强,而是组织不愿改变。”Poetiq的成功恰恰证明,通过优秀的系统工程,现有模型的潜能可被成倍释放。

GPT-5.2超越人类,不是终点,而是起点。它宣告了“唯参数论”时代的终结,开启了以系统智能、流程再造与人机共生为核心的新竞赛。未来的赢家,或许不再是拥有最大模型的公司,而是最懂如何将AI编织进人类生活经纬的那一个。

最新快讯

2026年01月13日

12:21
微新创想1月13日讯 根据权威媒体报道,国际金价在过去两年间经历了史诗级飙升。从2024年初的每盎司2004美元起步,金价一路高歌猛进,至2025年12月更是创下4584美元的历史天价,累计涨幅惊人。然而,在这波金价狂潮中,普通消费者却可能面临一场精心策划的骗局。 去年11月,杨女士带着一枚某知名品牌的黄金手镯走进一家黄金回收店询价。店主接过手镯后,以检验...
12:20
2026年1月13日,科技界迎来重磅消息!在CES 2026展会现场,微星正式揭幕其创新力作——全新臂式显示器支架产品线。这一突破性系列涵盖MPG、MAG、PRO三大旗舰系列,精心打造单屏与双屏多种型号,可轻松承托最高20公斤的重量,并完美适配最大49英寸的显示设备。 该系列产品的核心设计理念在于优化用户的桌面使用体验。通过科学的人体工学设计,有效提升桌...
12:20
2026年1月13日,DeepSeek正式发布由梁文锋教授领衔撰写的新论文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,这项具有里程碑意义的研究成果由北京大学与DeepSeek团队共同完成。该论文提出了一种创新的可扩展查找条...
12:20
2026年1月13日,抖音电商携手行业观察平台TT观潮以及时尚数据机构POP,联合发布了权威的《2026春夏抖音电商时尚消费趋势报告》。这份报告深入剖析了当前时尚消费领域的最新动态,提出了六大核心趋势风格,分别为"海屿微光"、"零压通勤"、"轻懒主义"、"在地轻奢"、"社交动能场"和"热练生活"。这些风格趋势精准覆盖了度假休闲、职场通勤、日常生活、社交互动以...
12:20
2026年1月13日,微纯生物正式宣布成功完成B轮融资,投资方为粤科金融与前海长城基金。作为一家专注于硅胶基及树脂基纳米微米微球研发、生产与销售的高科技企业,微纯生物凭借其卓越的技术实力和创新能力,在行业内树立了显著的品牌形象。 公司依托微纳米多孔微球制备、微球表面键合修饰、色谱柱装柱三大核心技术,构建了从微球合成到功能化修饰及色谱柱生产的全产业链体系。这一...
12:20
2026年1月13日,硬件评测媒体Igor's Lab正式发布了专为AMD RDNA 3/4显卡打造的Linux工具——RebelsTool,为游戏玩家和开发者提供了突破性能极限的新途径。这款创新工具巧妙地绕过了传统驱动程序的束缚,通过I2C总线直接与GPU的SMU(片上监控单元)和PWM(脉宽调制)控制器建立通信,实现了对功耗、电流和电压的精准底层调控。其...
12:20
2026年1月13日,盛达资源正式宣布一项具有战略意义的投资计划,拟收购来宾金石矿业55%的股权。这一举措标志着盛达资源在有色金属领域的版图将迎来重要扩张,为其未来的矿产开发与资源储备注入强劲动力。来宾金石矿业作为区域内重要的矿业企业,其核心业务涵盖妙皇铜铅锌银矿的规模化开采,同时积极布局花蓬-那宜、花候-花仪等铜铅锌银矿的勘探项目。通过此次股权收购,盛达资...
12:20
2026年1月13日,小红书与美团正式官宣启动“红美计划”,标志着两大平台在内容电商与本地生活服务领域的深度战略合作。首期计划将聚焦美团买药行业线,通过创新的技术整合,实现小红书广告笔记与美团购买页面的无缝对接。美团平台上的商家将有机会在小红书发布的广告内容中直接嵌入购买链接,让用户在浏览种草内容的同时,能够便捷地完成药品购买,从而极大提升转化效率。 这一合...
12:20
2026年1月13日,TikTok Shop正式发布履约规则重大更新,标志着平台在物流管理方面迈出重要改革步伐。据悉,新规将于1月26日全面生效,核心要求卖家在订单确认后2个工作日内必须将状态更新为"运输中"。这一举措旨在通过标准化操作流程,显著提升整体物流效率,同时大幅改善消费者的购物体验。 根据最新规定,所有商家必须严格遵守服务水平协议(SLA),确...
12:20
2026年1月12日,京东在北京隆重举办外置存储行业合作伙伴大会,汇聚了闪迪、西部数据、三星等行业领军品牌,共同见证过去一年的合作硕果,并擘画2026年数据存储市场的发展蓝图。大会以"智联存储,体验升级"为主题,深入探讨产品创新、应用场景拓展、营销策略革新以及服务模式优化等关键议题,旨在通过多方协同,全面提升用户存储体验,破解行业发展瓶颈,引领数据存储市场迈...
12:20
微软正式官宣将于2026年1月22日举办备受期待的Xbox开发者直面会,这场年度盛会将聚焦于两款重磅大作的全球首发。作为本次展示的核心亮点,由知名工作室Playground Games倾力打造的《神鬼寓言》系列新作以及备受玩家期待的《极限竞速:地平线6》将首次亮相。据悉,《神鬼寓言》在本次直面会后即将同步登陆三大主流平台——PlayStation 5、Xbo...
12:20
1月12日,备受瞩目的江苏华泰国金科创成长股权投资基金(有限合伙)正式宣告成立,其高达50.55亿元人民币的巨额出资额标志着该基金将成为业内瞩目的焦点。这一重量级投资平台的诞生,凝聚了多方力量,由华泰紫金投资有限责任公司、工银资本管理有限公司以及江苏金财投资有限公司共同担任执行事务合伙人,展现了强大的资本运作实力与协同效应。该基金的业务范围广泛,涵盖私募股权...