DeepMind推AI线下桌游局Gemini3横扫狼人杀扑克排行榜

谷歌 DeepMind 与 Kaggle 联合宣布对公开基准测试平台 Game Arena(游戏竞技场)进行重大升级,正式引入“狼人杀”与“扑克”两款经典策略游戏。这一举措标志着 AI 性能评估已从传统的逻辑运算(如国际象棋)向更复杂的社交推理与不确定决策领域跨越,开启了 AI 认知能力测试的新篇章。

测评维度:从逻辑思维到社交伪装

DeepMind 指出,传统的测试方式已难以有效区分顶尖 AI 模型的细微差距。新加入的“狼人杀”和“扑克”游戏旨在从不同维度极限测试 AI 的认知能力,推动 AI 技术向更高层次发展。

狼人杀:侧重评估模型的沟通技巧、语言说服力以及识破/利用谎言的社交感应能力。通过模拟多人参与的复杂社交场景,狼人杀能够全面考察 AI 在信息不对称环境下的沟通策略与心理博弈能力。

扑克:模拟真实世界的复杂决策过程,测试模型在面对不完整信息和风险管理时的博弈能力。扑克游戏不仅考验 AI 的计算能力,更对其风险控制、心理判断和策略调整能力提出严苛要求。

国际象棋:继续作为衡量纯粹逻辑思维与长程规划的基础指标。作为经典的逻辑推理测试平台,国际象棋将保持其重要地位,为 AI 逻辑能力的评估提供稳定基准。

DeepMind推AI线下桌游局Gemini3横扫狼人杀扑克排行榜插图1

战力排行:Gemini3 家族全面制霸

根据最新公布的 Elo 排名,谷歌新一代模型 Gemini3Pro 与 Gemini3Flash 展现出统治级实力,在所有棋类与策略游戏中均位列第一梯队。令人意外的是,轻量级的 Flash 模型在某些需要快速迭代和即时反馈的博弈场景中表现尤为出色,而 Pro 模型则在深度规划上保持领先,展现了不同架构模型的独特优势。

安全研究的双重价值

除了性能展示,DeepMind 还强调了“狼人杀”基准测试在 AI 安全领域的巨大潜力。该场景模拟了现实中的操纵行为检测,让模型在受控、无实际后果的环境中学习识别恶意引导,为 AI 安全研究提供重要实践平台。谷歌 DeepMind 首席执行官 Demis Hassabis 对此表示,随着模型能力的指数级增长,行业亟需此类更具挑战性、更贴近现实动态的“压力测试”,以确保 AI 技术的安全可靠发展。

目前,Game Arena 已在 Kaggle 平台开放,开发者可实时观察全球顶尖模型在这些高压社交博弈中的表现,共同推动 AI 技术的进步与创新。这一开放平台将为 AI 研究者提供宝贵的数据和洞察,促进 AI 技术在更广泛领域的应用与发展。

最新快讯

2026年02月04日

12:02
声明:本文来自于微信公众号 锌刻度,作者:邹珊,授权站长之家转载发布。在办公室午休时间,凑近手机轻声说出项目总结要点,语音输入的准确率可高达98%;在国外游玩想要和民宿房东无障碍沟通,不再需要切换翻译APP,而是直接用输入法快捷翻译;从缩写到口语化词语,再到在线追梗,输入法都能抢先一步智能联想到最佳关键词……在移动互联网的生态版...
12:02
美国AI初创巨头Anthropic近日推出了一款专门面向企业法务团队的AI生产力工具,这一举动直接导致全球法律软件及信息服务行业的股价出现剧烈波动。市场分析认为,该工具的问世意味着AI对传统媒体和信息服务商业模式的威胁已进入实质性阶段。受此消息影响,欧美市场相关板块遭遇重挫。法律出版巨头RELX美股一度大跌约14%,旗下的法律及商业资讯服务面临直接冲击;与此...
12:02
2026年2月,汽车线控底盘企业千顾科技宣布完成7亿元人民币C轮融资。本轮融资由蓝湖资本、嘉兴长三投等九家机构联合投资。资金将用于线控制动核心技术迭代、产品量产落地及产能扩建。公司总部位于中国,专注于为电动汽车与智能网联汽车提供线控制动、线控转向等关键零部件及系统集成。此次融资旨在强化其在智能底盘领域的技术壁垒与产业化能力。
12:02
2026年2月4日,红杉中国宣布正式完成对拜耳剥离的抗生素莫西沙星(商品名:拜复乐®/Avelox®)全球业务与资产的收购。该药1999年首获欧美批准,现销往全球100多个国家,用于治疗社区获得性肺炎等多种感染,累计惠及超2.4亿患者。交易完成后,红杉中国同步设立杭州杉泽生物医药有限公司及母公司Ascenda Pte.Ltd.,专注该产品的研发、生产与商业...
12:02
2月4日,银联国际与Visa宣布达成跨境汇款战略合作。双方将依托各自网络与技术优势,在全球范围内共建多元、便捷、安全的跨境汇款服务体系。合作覆盖Visa旗下银行及专业汇款机构,通过手机银行APP、官网及线下网点等多渠道上线银联跨境汇款服务。此举旨在适配不同市场用户习惯与数字化支付需求,推动构建开放包容、高效安全的全球跨境支付生态。
12:02
2月4日,义乌苏溪国际枢纽港迎来历史性时刻,正式启运首趟“义乌苏溪-宁波舟山港”以星航运电商海铁联运专列。这趟专列满载着100标准箱跨境电商货物,从苏溪港出发,一路向南,驶向宁波舟山港铁路北仑港站。这些货物将实现无缝衔接,搭乘以星航运ZX2电商快航班轮,跨越重洋,最终抵达美国洛杉矶港。这一创新举措不仅标志着浙中跨境电商出口迈入新阶段,更彰显了义甬舟开放大通道...
12:02
2026年2月4日,eBay更新营销条款,正式纳入视频广告类型及“商品对比”互动功能的广告归因计算。此次调整适用于全球卖家,即日起生效。新规明确用户对广告内容合规性负直接责任,并允许平台在更换营销服务商时自动迁移广告设置。此举被视为eBay推进买家端AI工具布局的关键一步——此前平台已于2025年5月启动智能AI功能测试。调整或将影响卖家广告费用分摊逻辑与...
12:02
2026年2月4日,OpenAI开发者官方账号宣布,GPT-5.2及GPT-5.2-Codex在未更改模型结构与参数权重的前提下,通过推理堆栈系统级优化,实现约40%整体推理速度提升。该更新面向所有API用户,不涉及再训练或能力调整。此次优化源于2025年12月发布的GPT-5.2系列——为应对谷歌Gemini 3竞争压力而紧急推出,同期幻觉率降低38%。...
12:02
2026年2月3日,知名游戏设计师、前《上古卷轴V:天际》核心设计总监Bruce Nesmith就《上古卷轴6》是否应更换游戏引擎的争议,发表了深度解读。面对玩家群体中日益高涨的更换引擎呼声,Nesmith明确指出,若强行迁移至虚幻引擎,将导致整个开发团队数十人陷入长达数年的适配与调试工作,使游戏长期处于无法进行实质性测试的停滞状态,这将严重制约高自由度RP...
12:02
2026年2月4日,脑机交互与人机共融海河实验室宣布,由周鹏团队牵头、联合天津中医药大学第一附属医院等单位研发的全国首个脑控针灸融合神经康复装备平台“神工-华佗”正式落地。该装备融合脑机接口与智能穿戴式针灸技术,支撑国家载人航天实验项目。此前,其关键技术——便携式经皮穴位电刺激装置已多次搭载神舟系列飞船开展天基实验,实现中医智能针灸装备在太空场景的首次应用...
12:02
2月4日,湖北社保科创股权投资基金合伙企业(有限合伙)在湖北省正式宣告成立,标志着湖北省在科技创新领域迎来重大资本布局。该基金由建信金投私募基金管理(北京)有限公司与长江创业投资基金管理有限公司联合担任执行事务合伙人,注册资本高达200亿元人民币,彰显了其雄厚的资本实力和广阔的发展前景。 作为该基金的主要出资方,建信金融资产投资有限公司、全国社会保障基金理事...
12:02
2026年1月,全球共有36家中国手游发行商进入Sensor Tower发布的全球发行商收入榜TOP100,合计收入21.8亿美元,占榜单总收入的37.8%。该数据由Sensor Tower于2月4日发布。腾讯凭借《王者荣耀》《和平精英》等产品收入环比增长43%,继续位居榜首。统计覆盖iOS与Google Play双平台,不含第三方安卓渠道。