DeepMind的AI智能体再次突破自我,这次推出的名为BBF的模型堪称效率革命。只需短短2小时,BBF就能掌握26款雅达利游戏,其学习速度与人类不相上下,甚至超越了以往所有同类AI。传统强化学习虽然能解决问题,但效率低下,需要漫长的试错过程。而BBF的突破性进展恰恰体现在效率上,其全名”Bigger、Better、Faster”完美诠释了这一优势。更令人惊喜的是,BBF能在单张显卡上完成训练,大幅降低算力需求。这项由谷歌DeepMind与蒙特利尔大学联合研发的成果已完全开源,为AI领域带来新的可能性。

评价BBF游戏表现的IQM指标,最高可达人类5倍。这一综合评分体系经过归一化处理,本文中的数据均以人类为基准。在包含26款雅达利游戏的Atari100K测试数据集中,BBF取得了所有模型中最高的IQM成绩。值得注意的是,BBF在所有训练过的26款游戏中都超越了人类水平。与表现相近的Eff.Zero相比,BBF的GPU时间消耗减少了近一半;而与GPU消耗相似的SPR和SR-SPR模型相比,BBF的性能优势却十分明显。反复测试显示,BBF在达到某一IQM分数的概率上始终保持较高水准,更有超总测试次数1/8的运行实现了5倍于人类的惊人成绩。即便面对未训练的雅达利游戏,BBF也能取得超过人类一半的IQM分数,在29款未训练游戏中更是达到人类四至五成的表现。

BBF研究的核心问题是如何在样本稀少的情况下扩展深度强化学习网络。DeepMind将研究重点放在Atari100K基准上,却发现单纯扩大模型规模并不能提升表现。在深度学习模型设计中,每步更新次数(Replay Ratio,RR)是关键参数。对于雅达利游戏而言,RR值越高,模型表现越好。以RR值最高可达16的SR-SPR为基础,DeepMind最终将BBF的RR值确定为8,同时开发了RR=2的简化版本以适应不同用户需求。

从SR-SPR到BBF的改进主要体现在以下方面:卷积层重置强度从20%提升至50%,大幅增强模型对随机目标的扰动能力;神经网络层数从3层增至15层,宽度扩大4倍;更新范围(n)采用动态调整机制,每4万梯度步骤重置一次,前1万步内n值以指数形式从10降至3;衰减因子(γ)从0.97提高到0.997;增加权重衰减量至0.1;删除了表现不佳的NoisyNet模块。消融实验表明,硬复位和更新范围缩小对BBF性能影响最为显著,而NoisyNet的影响则不甚明显。

这一突破性成果为AI发展开辟了新路径,相关论文已发布在arxiv上,GitHub项目页也同步开放,为研究人员提供了宝贵资源。https://arxiv.org/abs/2305.19452https://github.com/google-research/google-research/tree/master/bigger_better_faster

最新快讯

2026年03月30日

22:13
微新创想:蓝思科技近日发布了2025年年度报告,展示了公司在过去一年中的强劲表现。根据年报显示,公司全年实现营业收入744.1亿元,同比增长6.46%。归属于母公司股东的净利润达到40.18亿元,同比增长10.87%。这一增长主要得益于公司在多个核心业务领域的持续发力。 智能手机与电脑业务依然是蓝思科技的主要收入来源,全年营收为611.84亿元,占总营收的8...
21:42
微新创想:2026年3月,微星(MSI)在中国大陆推出MAG Z890 TOMAHAWK WIFI II主板,适配英特尔酷睿Ultra 200S Plus处理器。这款主板在设计上做出了一些调整,例如在I/O面板上将雷电4接口由2个减至1个,同时Wi-Fi 7的频宽也从320MHz降至160MHz。这些改动使得主板的扩展能力有所下调。 尽管部分接口和无线规格进...
21:42
微新创想:3月30日,央视财经曝光一起虚假投资理财平台诈骗案。山东菏泽市民潘先生被所谓“理财大师”诱导下载“恒健优配”App,初期小额试投获利后,追加投资50万元。平台显示高额收益,但提现时仅成功取出1000元。 警方证实,账户余额及收益均为后台篡改的虚假数据,50万元资金早已被诈骗团伙转移。此类平台无金融牌照,通过伪造交易界面实施“杀猪盘”式诈骗。 提醒公...
21:42
微新创想:2026年4月1日傍晚 索尼将官宣PS Plus当月会免游戏 2026年4月1日傍晚 索尼将官宣PS Plus当月会免游戏 4月7日起开放领取 本次Essential及以上三档订阅用户均可免费获取《堕落之主》与《刀剑神域碎梦边境》 前者为虚幻5引擎打造的黑暗奇幻ARPG 2023年发售 后者是万代南梦宫于2024年10月推出的20人联机动作游戏 消...
21:09
微新创想:vivo于3月30日春季新品发布会正式推出X300 Ultra手机。该机定位为「专业V单」,搭载第五代骁龙8至尊版处理器,性能强劲,为用户带来更流畅的使用体验。 X300 Ultra配备3+2蔡司大师镜头群,包括14mm超广角、35mm人文纪实以及85mm云台级长焦镜头。这一组合覆盖了全焦段拍摄需求,满足用户在不同场景下的拍摄需求。同时,该机还支持...
21:09
微新创想:2026年3月30日,美的集团发布2025年年度报告。全年营业总收入达4585亿元,同比增长12%;归母净利润439.5亿元,增长14%。海外收入1959亿元,增长16%,本地化自营业务覆盖全球50个国家。ToB业务收入1228亿元,增长17.5%,完成对Arbonia、东芝电梯中国业务及锐珂医疗国际业务的收购。目前美的在全球拥有超600家子公司、...
20:39
微新创想:3月30日晚,长安汽车在重庆举行蓝鲸超擎动力全球发布会。此次发布会正式推出了多项前沿技术,包括500bar超高压直喷混动发动机、3V高磁通磁钢电驱系统以及50C放电电池。这些技术的集成应用,使得蓝鲸超擎动力在城区驾驶场景下,蓝牌家轿的油耗降至2.98L/100km,SUV车型则为3.98L/100km,展现出卓越的燃油经济性。 微新创想:其中,50...
20:38
微新创想:2026年3月30日,工业富联(601138.SH)宣布股份回购计划实施完毕。公司累计斥资5亿元,回购股份1410.35万股,占总股本0.07%。回购均价为35.45元/股,价格区间在18.40元至63.40元之间。 微新创想:此次回购的股份将于2026年3月31日全部注销,用于减少注册资本。通过这一举措,工业富联进一步优化了资本结构,提升了股东权...
20:08
微新创想:2026年3月30日,微信安全中心正式发布当月朋友圈热度谣言榜。该榜单汇总了10类具有代表性的不实信息,涵盖多个社会热点领域,引发广泛关注。 此次公布的谣言内容包括OpenClaw盗刷微信、七部门AI治理计划、新能源车“里程税”、限高令解除、霍山金矿事件、长治考务事故、崇州命案、内蒙古中考改革、青海棕熊出没以及深圳禁行电动自行车等。这些传言在社交平...
20:08
微新创想:3月25日,国家市场监管总局政务服务平台全新上线。平台聚焦便民利企,完成门户重构、服务优化、用户空间搭建及智能搜索集成等升级。采用扁平化设计,设立“我要办、我要查、我要看、我要问、我要评、集成服务”六大板块。 微新创想:新增适老化与无障碍功能,支持语音辅助与阅读优化;实现法人/个人专属空间,“我的申报”“我的证照”一站式管理;强化数据互通,精简高频...
20:08
微新创想:3月30日19时00分,力箭二号遥一运载火箭在东风商业航天创新试验区成功首飞,将新征程01星、新征程02星和天视卫星01星送入预定轨道。本次任务由中科宇航研制,是我国自主研制的中型液体火箭首次飞行。 火箭采用CBC构型,全长52米,起飞推力766吨,具备LEO、SSO等多种轨道发射能力。此次发射不仅验证了火箭的设计与制造水平,也展示了我国在商业航天...
20:08
微新创想:2026年3月,新锐学术正式发布《新锐期刊分区表2026》。该分区表覆盖自然科学、工程技术、医学等六大领域,纳入22299种期刊及15种计算机领域重要会议论文集。其以‘独立、公益、免费、开放’为理念,致力于构建一个更加公平、科学的学术评价体系。 微新创想:该分区表不仅关注传统的学术指标,还依托AI技术与多源客观数据,对期刊进行综合评估。这种评估方式...