DeepMind的AI智能体再次突破自我,这次推出的名为BBF的模型堪称效率革命。只需短短2小时,BBF就能掌握26款雅达利游戏,其学习速度与人类不相上下,甚至超越了以往所有同类AI。传统强化学习虽然能解决问题,但效率低下,需要漫长的试错过程。而BBF的突破性进展恰恰体现在效率上,其全名”Bigger、Better、Faster”完美诠释了这一优势。更令人惊喜的是,BBF能在单张显卡上完成训练,大幅降低算力需求。这项由谷歌DeepMind与蒙特利尔大学联合研发的成果已完全开源,为AI领域带来新的可能性。

评价BBF游戏表现的IQM指标,最高可达人类5倍。这一综合评分体系经过归一化处理,本文中的数据均以人类为基准。在包含26款雅达利游戏的Atari100K测试数据集中,BBF取得了所有模型中最高的IQM成绩。值得注意的是,BBF在所有训练过的26款游戏中都超越了人类水平。与表现相近的Eff.Zero相比,BBF的GPU时间消耗减少了近一半;而与GPU消耗相似的SPR和SR-SPR模型相比,BBF的性能优势却十分明显。反复测试显示,BBF在达到某一IQM分数的概率上始终保持较高水准,更有超总测试次数1/8的运行实现了5倍于人类的惊人成绩。即便面对未训练的雅达利游戏,BBF也能取得超过人类一半的IQM分数,在29款未训练游戏中更是达到人类四至五成的表现。

BBF研究的核心问题是如何在样本稀少的情况下扩展深度强化学习网络。DeepMind将研究重点放在Atari100K基准上,却发现单纯扩大模型规模并不能提升表现。在深度学习模型设计中,每步更新次数(Replay Ratio,RR)是关键参数。对于雅达利游戏而言,RR值越高,模型表现越好。以RR值最高可达16的SR-SPR为基础,DeepMind最终将BBF的RR值确定为8,同时开发了RR=2的简化版本以适应不同用户需求。

从SR-SPR到BBF的改进主要体现在以下方面:卷积层重置强度从20%提升至50%,大幅增强模型对随机目标的扰动能力;神经网络层数从3层增至15层,宽度扩大4倍;更新范围(n)采用动态调整机制,每4万梯度步骤重置一次,前1万步内n值以指数形式从10降至3;衰减因子(γ)从0.97提高到0.997;增加权重衰减量至0.1;删除了表现不佳的NoisyNet模块。消融实验表明,硬复位和更新范围缩小对BBF性能影响最为显著,而NoisyNet的影响则不甚明显。

这一突破性成果为AI发展开辟了新路径,相关论文已发布在arxiv上,GitHub项目页也同步开放,为研究人员提供了宝贵资源。https://arxiv.org/abs/2305.19452https://github.com/google-research/google-research/tree/master/bigger_better_faster

最新快讯

2026年02月09日

15:08
2026 年春节,AI圈的“红包大战”由阿里巴巴率先引爆。为了在激烈的AI入口竞争中突围,阿里正式启动了“春节 30 亿免单”活动,将AI技术深度植入生活场景,目标直指腾讯与字节跳动的市场高地。这一波,阿里玩的是“生态协同”的降维打击。活动期间,阿里千问APP在短时间内送出超过 100 万单奶茶,这种通过AI直接连接消费场景的能力,展示了阿里多年积累的生态闭...
15:08
 澳大利亚AI基础设施初创公司 Firmus Technologies 今日宣布,已获得由 黑石集团(Blackstone) 领投的 100亿美元 巨额债务融资。这不仅是澳大利亚史上规模最大的私有信贷融资之一,也标志着全球AI算力基建进入了“军备竞赛”的新阶段。这笔资金将主要用于 Firmus 的“南门项目”。该计划拟在全澳构建超大规模AI中心,目...
15:08
春节临近,2月9日千问APP提示,「免单卡」可以买年货,不仅能买盒马、天猫超市,还能购买各大连锁商超和便利店的酒水零食、米面粮油、生鲜水果等,只需一句话,用户就能完成年货的一站式采购。例如,用户只需对千问说“帮我买一箱牛奶”、“帮我在天猫超市买一箱纸巾”或者“帮我在盒马买一盒鸡蛋”,千问就可以从海量商品中挑出适合的商品,并在用户下单后即时配送。据悉,千问已通...
15:08
微新创想:大模型竞争格局再度洗牌 根据最新发布的Artificial Analysis智能指数,Anthropic的旗舰模型Claude Opus4.6凭借卓越的表现力压群雄,正式登顶该权威排行榜 这一指数综合了编程、代理任务和科学推理等十项深度测试,Opus4.6在代理类工作任务、终端编程以及物理研究课题上均斩获第一 值得关注的是,尽管Opus4.6的运行...
15:08
微新创想:在过去的一年里,美国多家知名企业在宣布大规模裁员时,不约而同地将原因归结为“人工智能提高了效率”。然而,多位经济学家和技术分析师近期提出质疑,认为这种现象更像是所谓的“AI洗白”,即公司高管利用AI作为挡箭牌,以此掩盖关税压力、疫情期间过度招聘以及追求利润最大化等真实的经营问题。 微新创想:据咨询机构Challenger, Gray & C...
14:33
微新创想:2026年2月,斯达领动宣布完成数千万元A1轮融资,由老股东乾德电子独家投资。此次融资标志着公司在新能源汽车感知技术领域获得了重要认可与支持。 公司总部位于中国,专注于新能源汽车领域4D及成像毫米波雷达的研发与规模化应用。斯达领动致力于通过技术创新推动智能驾驶的发展,其产品在提升车辆感知能力方面具有显著优势。 本轮融资将主要用于新一代4D毫米波雷达...
14:33
微新创想:2025年2月6日,金雷股份(300443.SZ)发布公告,宣布财务总监朱晓宇因个人原因辞职,该辞职自公告之日起生效,朱晓宇将不再担任公司任何职务。朱晓宇于2025年7月加入金雷股份,同年10月28日正式被聘任为公司财务总监,任职时间仅约四个月。 朱晓宇此前曾在碧桂园地产和海亮股份担任财务总监,具备丰富的财务管理经验。他拥有大连理工大学管理科学与工...
14:33
微新创想:2月6日,深交所公告显示,苏州珂玛材料科技股份有限公司向不特定对象发行可转债已通过审核,符合发行、上市及信息披露要求。本次可转债发行总额不超过7.5亿元,募集资金将投向结构功能模块化陶瓷部件扩建、半导体设备用碳化硅材料及部件项目,并补充流动资金。 深交所要求公司结合先进材料生产基地项目进展及2025年度业绩预告,说明项目预计效益情况。珂玛科技主营先...
14:32
微新创想:2026年2月,北京派特美生生物科技有限公司宣布完成A+轮融资,由勤智资本独家投资。此次融资标志着公司在宠物医药领域迈出了重要一步。 该公司专注于宠物创新药物研发,业务覆盖动物疾病预防、诊断、治疗及保健,同时具备兽药生产与经营资质。派特美生致力于为宠物健康提供更安全、有效的解决方案。 本轮融资将用于加速核心管线临床试验推进、GMP生产基地建设及团队...
14:32
微新创想:2026年2月,AI数字人技术服务商智慧倍增机器人宣布完成Pre-A轮融资,投资方为灵初智能与方正多策。此次融资标志着公司在AI数字人领域迈出了重要一步,为后续发展提供了坚实的资金支持。 该公司总部位于中国,专注于数字文化创意软件开发、市场营销策划、电影摄制服务及网络技术服务等领域。凭借在人工智能与数字内容融合方面的创新探索,智慧倍增机器人逐渐在行...
14:32
微新创想:2月10日(星期二)晚20时 小米集团董事长兼CEO雷军将于北京小米定制服务中心开展春节主题直播 此次直播定于农历小年当晚 旨在与用户共迎新春 雷军通过社交媒体发出邀约 欢迎公众线上参与 活动将聚焦年味互动与品牌服务体验 不设商业带货环节 突出节日陪伴属性
14:32
微新创想:2026年2月,江苏卓科制药有限公司成功完成天使轮融资,投资方为金桥基金。此次融资为公司未来发展注入了新的动力,也体现了资本市场对其业务模式和市场前景的认可。 江苏卓科制药有限公司主要专注于专用化学产品的销售业务。公司凭借专业的技术实力和完善的供应链体系,在行业内建立了良好的口碑和稳定的客户基础。 本次融资将主要用于扩充研发团队,提升企业的技术创新...