DeepMind的AI智能体再次突破自我,这次推出的名为BBF的模型堪称效率革命。只需短短2小时,BBF就能掌握26款雅达利游戏,其学习速度与人类不相上下,甚至超越了以往所有同类AI。传统强化学习虽然能解决问题,但效率低下,需要漫长的试错过程。而BBF的突破性进展恰恰体现在效率上,其全名”Bigger、Better、Faster”完美诠释了这一优势。更令人惊喜的是,BBF能在单张显卡上完成训练,大幅降低算力需求。这项由谷歌DeepMind与蒙特利尔大学联合研发的成果已完全开源,为AI领域带来新的可能性。

评价BBF游戏表现的IQM指标,最高可达人类5倍。这一综合评分体系经过归一化处理,本文中的数据均以人类为基准。在包含26款雅达利游戏的Atari100K测试数据集中,BBF取得了所有模型中最高的IQM成绩。值得注意的是,BBF在所有训练过的26款游戏中都超越了人类水平。与表现相近的Eff.Zero相比,BBF的GPU时间消耗减少了近一半;而与GPU消耗相似的SPR和SR-SPR模型相比,BBF的性能优势却十分明显。反复测试显示,BBF在达到某一IQM分数的概率上始终保持较高水准,更有超总测试次数1/8的运行实现了5倍于人类的惊人成绩。即便面对未训练的雅达利游戏,BBF也能取得超过人类一半的IQM分数,在29款未训练游戏中更是达到人类四至五成的表现。

BBF研究的核心问题是如何在样本稀少的情况下扩展深度强化学习网络。DeepMind将研究重点放在Atari100K基准上,却发现单纯扩大模型规模并不能提升表现。在深度学习模型设计中,每步更新次数(Replay Ratio,RR)是关键参数。对于雅达利游戏而言,RR值越高,模型表现越好。以RR值最高可达16的SR-SPR为基础,DeepMind最终将BBF的RR值确定为8,同时开发了RR=2的简化版本以适应不同用户需求。

从SR-SPR到BBF的改进主要体现在以下方面:卷积层重置强度从20%提升至50%,大幅增强模型对随机目标的扰动能力;神经网络层数从3层增至15层,宽度扩大4倍;更新范围(n)采用动态调整机制,每4万梯度步骤重置一次,前1万步内n值以指数形式从10降至3;衰减因子(γ)从0.97提高到0.997;增加权重衰减量至0.1;删除了表现不佳的NoisyNet模块。消融实验表明,硬复位和更新范围缩小对BBF性能影响最为显著,而NoisyNet的影响则不甚明显。

这一突破性成果为AI发展开辟了新路径,相关论文已发布在arxiv上,GitHub项目页也同步开放,为研究人员提供了宝贵资源。https://arxiv.org/abs/2305.19452https://github.com/google-research/google-research/tree/master/bigger_better_faster

最新快讯

2026年02月12日

20:19
微新创想:2026年2月12日,初创公司TDM在Kickstarter平台发布了一款名为Neo的头戴式耳机产品。这款耳机以其独特的多功能设计吸引了众多关注,用户只需旋转耳罩即可一键切换为便携蓝牙音箱,满足了个人聆听与音乐共享的双重需求。 Neo耳机在音质表现上也颇具亮点。它配备了双40mm驱动单元和双功放系统,能够提供更加立体和清晰的音频体验。同时,该产品支...
20:19
微新创想:2026年2月12日 广汽集团宣布其自营充电站达2002座 覆盖全国31个省份、211个城市 截至目前 广汽能源累计建成充电桩24313根 其中直流桩18355根 总充电量达15.6亿度 核心城市实现1公里内必有站 1000V高压超充占比超95% 该网络支撑广汽能源三年发展规划 2026年目标销量27万台 并将落地机械臂自动充电、兆瓦级超充及V2G...
20:19
微新创想:2026年2月12日,深圳市工信局印发《深圳市“人工智能+”先进制造业行动计划(2026—2027年)》,正式启动智能网联汽车“车路云一体化”应用试点。该计划聚焦“智造+智驾”全产业链,通过AI赋能协同设计、生产制造、检验检测及封装验证四大环节。 微新创想:实现高精度仿真建模,有助于提升产品设计的准确性和效率,减少后期修改成本。资源智能调度则优化了...
20:19
微新创想:2026至2027年,深圳市将在“人工智能+”先进制造业领域建设国家人工智能应用中试基地,重点聚焦消费领域移动终端方向。这一重大举措由深圳市工业和信息化局于2026年2月12日正式印发实施,标志着深圳在推动人工智能与制造业深度融合方面迈出了坚实一步。 该计划旨在通过构建工业智能体创新中心,进一步提升人工智能技术在制造业中的应用水平。同时,深圳市将积...
20:19
微新创想:2026年2月12日 深圳市工信局印发《深圳市“人工智能+”先进制造业行动计划(2026—2027年)》 文件提出构建无人机自主能力演进体系 搭建智能仿真平台与低空数字孪生系统 融合AI技术提升感知 决策及任务执行能力 培育空中具身智能 同步建设“空中智慧道路系统” 实现空域智能设计 航道规划 全空域感知与多机协同管理 该体系将赋能巡检 物流 载人...
20:19
微新创想:2026年2月11日,MINI新任设计负责人霍尔格·汉普夫表示,品牌将延续圆形OLED中控屏(直径9.4英寸)为核心,强化数字界面与实体按键的结合。此举回应消费者对‘屏幕过载’的普遍不满,强调保留MINI特有的模拟质感与品牌个性。 汉普夫指出,过度数字化会削弱用户连接感,而当前界面已足够成熟,未来重点在于优化交互逻辑而非扩大屏幕尺寸。该策略体现宝马...
20:19
微新创想:2026年2月12日,国际复材(301526.SZ)就股票异常波动发布说明 公司位于中国,主营玻璃纤维及制品研发、生产与销售 电子级玻璃纤维系其产品体系组成部分,是印制电路板(PCB)关键基础原材料,应用于电子电气等领域 公司称生产经营正常,主营业务与经营模式未发生重大变化 此次澄清旨在回应近期市场对相关业务的讨论,强调将持续聚焦主业,推进技术创新...
20:19
微新创想:2026年2月12日,清华大学戴琼海院士团队宣布成功研发“计算全息光场(DISH)”三维打印技术。这项突破性成果标志着三维打印技术迈入了一个全新的阶段。该技术基于计算光学逆过程设计,能够实现亚秒级的体积打印,大幅提升了打印效率。在实际应用中,毫米尺寸的复杂结构仅需0.6秒即可完成曝光,速度较传统方法提升了数十倍。 微新创想:这项技术的一个显著优势是...
19:17
微新创想:2026年2月12日地平线机器人公司宣布HSD智能驾驶系统V1.5正式向奇瑞星途ET5用户推送 此次更新标志着HSD智能驾驶系统首次通过OTA方式进行升级 本次升级重点聚焦于行车拟人化与泊车安全性两个方面 在行车方面优化了车速和车距控制 提升了路口通行逻辑 掉头轨迹更加精准 并增强了对不规则障碍物的识别能力 在泊车功能上 新增了防溜车保护机制 为用...
19:17
微新创想:2026年2月27日起 东风汽车有限公司将召回2020年12月3日至2024年5月21日生产的全新一代奇骏汽车 共计29608辆 此次召回的主要原因是部分车辆在超高速或激烈驾驶条件下存在冷却散热不足的问题 导致发动机油温过高 轴瓦磨损 在极端情况下可能引发行驶中发动机突然熄火的安全隐患 东风汽车有限公司表示 本次召回覆盖全国范围 所有受影响的车主均...
19:16
微新创想:2026年2月12日14时37分 我国在广东阳江附近海域使用捷龙三号火箭 成功将7颗卫星送入预定轨道 任务由太原卫星发射中心组织实施 微新创想:其中 港中大一号 卫星系全球首颗面向城市可持续发展的AI大模型卫星 由香港中文大学自主研发 首次实现DeepSeek大语言模型星载部署 具备在轨准即时数据分析能力 微新创想:该星将与 香港青年科创号 组网 ...
19:16
微新创想:2026年2月,美国旧金山,OpenAI为内部安全团队定制了一款特殊版ChatGPT。这款工具能够分析公开报道内容,并与员工的Slack聊天记录、邮件及文件访问日志进行比对,从而自动识别出曾接触相关信息的权限人员。这一举措旨在应对近期多起内部运营信息外泄事件,提高信息安全管理的效率和精准度。 微新创想:该系统采用基于自然语言驱动的AI智能体架构,具...