DeepMindAI两小时速通26款雅达利游戏效率超人类

2023-07-04 09:15:54 互联网 70 次阅读

DeepMind的AI智能体再次突破自我，这次推出的名为BBF的模型堪称效率革命。只需短短2小时，BBF就能掌握26款雅达利游戏，其学习速度与人类不相上下，甚至超越了以往所有同类AI。传统强化学习虽然能解决问题，但效率低下，需要漫长的试错过程。而BBF的突破性进展恰恰体现在效率上，其全名”Bigger、Better、Faster”完美诠释了这一优势。更令人惊喜的是，BBF能在单张显卡上完成训练，大幅降低算力需求。这项由谷歌DeepMind与蒙特利尔大学联合研发的成果已完全开源，为AI领域带来新的可能性。

评价BBF游戏表现的IQM指标，最高可达人类5倍。这一综合评分体系经过归一化处理，本文中的数据均以人类为基准。在包含26款雅达利游戏的Atari100K测试数据集中，BBF取得了所有模型中最高的IQM成绩。值得注意的是，BBF在所有训练过的26款游戏中都超越了人类水平。与表现相近的Eff.Zero相比，BBF的GPU时间消耗减少了近一半；而与GPU消耗相似的SPR和SR-SPR模型相比，BBF的性能优势却十分明显。反复测试显示，BBF在达到某一IQM分数的概率上始终保持较高水准，更有超总测试次数1/8的运行实现了5倍于人类的惊人成绩。即便面对未训练的雅达利游戏，BBF也能取得超过人类一半的IQM分数，在29款未训练游戏中更是达到人类四至五成的表现。

BBF研究的核心问题是如何在样本稀少的情况下扩展深度强化学习网络。DeepMind将研究重点放在Atari100K基准上，却发现单纯扩大模型规模并不能提升表现。在深度学习模型设计中，每步更新次数（Replay Ratio，RR）是关键参数。对于雅达利游戏而言，RR值越高，模型表现越好。以RR值最高可达16的SR-SPR为基础，DeepMind最终将BBF的RR值确定为8，同时开发了RR=2的简化版本以适应不同用户需求。

从SR-SPR到BBF的改进主要体现在以下方面：卷积层重置强度从20%提升至50%，大幅增强模型对随机目标的扰动能力；神经网络层数从3层增至15层，宽度扩大4倍；更新范围（n）采用动态调整机制，每4万梯度步骤重置一次，前1万步内n值以指数形式从10降至3；衰减因子（γ）从0.97提高到0.997；增加权重衰减量至0.1；删除了表现不佳的NoisyNet模块。消融实验表明，硬复位和更新范围缩小对BBF性能影响最为显著，而NoisyNet的影响则不甚明显。

这一突破性成果为AI发展开辟了新路径，相关论文已发布在arxiv上，GitHub项目页也同步开放，为研究人员提供了宝贵资源。https://arxiv.org/abs/2305.19452https://github.com/google-research/google-research/tree/master/bigger_better_faster

2025年11月23日

00:09

宾利定制动画迎宾灯光技术发布实现最长11秒创意投影

2025年11月22日，宾利汽车以创新科技重新定义奢华体验，正式推出支持定制动画的迎宾灯光系统。这项前沿技术允许客户自由创作最长11秒的独特动画效果，为每一次出行注入个性化魅力。据悉，该技术首次亮相于在罗马尼亚雅典娜神庙举办的特别活动中，通过车门下方精密投影装置，为宾客呈现令人惊叹的光影艺术。该系统采用尖端光学设计，集成了三色光源、五个高精度镜头、两个特殊...