DeepMind的AI智能体再次突破自我,这次推出的名为BBF的模型堪称效率革命。只需短短2小时,BBF就能掌握26款雅达利游戏,其学习速度与人类不相上下,甚至超越了以往所有同类AI。传统强化学习虽然能解决问题,但效率低下,需要漫长的试错过程。而BBF的突破性进展恰恰体现在效率上,其全名”Bigger、Better、Faster”完美诠释了这一优势。更令人惊喜的是,BBF能在单张显卡上完成训练,大幅降低算力需求。这项由谷歌DeepMind与蒙特利尔大学联合研发的成果已完全开源,为AI领域带来新的可能性。

评价BBF游戏表现的IQM指标,最高可达人类5倍。这一综合评分体系经过归一化处理,本文中的数据均以人类为基准。在包含26款雅达利游戏的Atari100K测试数据集中,BBF取得了所有模型中最高的IQM成绩。值得注意的是,BBF在所有训练过的26款游戏中都超越了人类水平。与表现相近的Eff.Zero相比,BBF的GPU时间消耗减少了近一半;而与GPU消耗相似的SPR和SR-SPR模型相比,BBF的性能优势却十分明显。反复测试显示,BBF在达到某一IQM分数的概率上始终保持较高水准,更有超总测试次数1/8的运行实现了5倍于人类的惊人成绩。即便面对未训练的雅达利游戏,BBF也能取得超过人类一半的IQM分数,在29款未训练游戏中更是达到人类四至五成的表现。

BBF研究的核心问题是如何在样本稀少的情况下扩展深度强化学习网络。DeepMind将研究重点放在Atari100K基准上,却发现单纯扩大模型规模并不能提升表现。在深度学习模型设计中,每步更新次数(Replay Ratio,RR)是关键参数。对于雅达利游戏而言,RR值越高,模型表现越好。以RR值最高可达16的SR-SPR为基础,DeepMind最终将BBF的RR值确定为8,同时开发了RR=2的简化版本以适应不同用户需求。

从SR-SPR到BBF的改进主要体现在以下方面:卷积层重置强度从20%提升至50%,大幅增强模型对随机目标的扰动能力;神经网络层数从3层增至15层,宽度扩大4倍;更新范围(n)采用动态调整机制,每4万梯度步骤重置一次,前1万步内n值以指数形式从10降至3;衰减因子(γ)从0.97提高到0.997;增加权重衰减量至0.1;删除了表现不佳的NoisyNet模块。消融实验表明,硬复位和更新范围缩小对BBF性能影响最为显著,而NoisyNet的影响则不甚明显。

这一突破性成果为AI发展开辟了新路径,相关论文已发布在arxiv上,GitHub项目页也同步开放,为研究人员提供了宝贵资源。https://arxiv.org/abs/2305.19452https://github.com/google-research/google-research/tree/master/bigger_better_faster

最新快讯

2025年08月15日

04:51
2025年8月15日,全球知名投资机构高瓴资本旗下HHLR Advisors正式披露了其第二季度在美国市场的股票持仓情况。据最新数据显示,该机构二季度美股总市值高达31.05亿美元,展现出稳健的投资布局。值得注意的是,其投资组合中中概股占据了绝对主导地位,占比超过九成,充分体现了对新兴市场企业的深度关注。在备受瞩目的前十大重仓股名单中,中概股更是占据了八席,...
04:51
2025年8月15日,北京时间,一份备受关注的13F文件揭示了知名对冲基金Third Point在第二季度的持仓变动,其大幅加码科技股的举动引发了市场高度关注。据文件披露,Third Point对英伟达的持仓实现了惊人增长,增持135万股至280万股,增幅高达93.1%,显示出对该芯片巨头未来发展的强烈信心。此外,该基金对亚马逊的布局也显著加码,增持比例达到...
04:51
2025年8月15日,北京时间,全球知名投资公司伯克希尔哈撒韦正式发布了其截至6月30日的二季度持仓报告,引发市场高度关注。这份报告不仅揭示了伯克希尔在投资组合上的最新动态,也为投资者提供了宝贵的参考信息。 报告显示,伯克希尔在本季度采取了积极的建仓策略,重点增持了联合健康和纽柯钢铁。具体而言,公司新建仓买入联合健康逾500万股,显示出对这家健康保险巨头的长...
04:51
近期,国内储能领域迎来重要进展,远景储能、阿特斯等头部企业纷纷公布了其电池舱火烧测试结果。这一系列测试不仅彰显了企业的技术实力,也为行业树立了新的标杆。据统计,目前已有至少11家储能企业成功完成了大规模火烧测试,而单次测试的成本更是高达千万元级别,足见其严谨性和重要性。 业内人士普遍认为,火烧测试是衡量储能企业技术水平和安全性能的关键指标,能够有效提升企业在...
04:51
2025年8月15日,全球知名对冲基金橡树资本管理公司(Oaktree Capital Management LP)最新披露的13F文件揭示了其在第二季度末的投资组合调整策略。文件显示,橡树资本对中概股市场进行了大幅调整,清仓了包括哔哩哔哩、京东和百度在内的6只中概股,显示出其对当前中概股市场环境的谨慎态度。与此同时,该基金逆势建仓满帮,显示出对后疫情时代中...
04:51
8月14日收盘时分,纽约期货市场农产品板块上演精彩博弈。ICE原糖期货遭遇重挫,跌幅达1.60%,而白糖期货则逆势上扬,录得0.55%的显著涨幅。这一涨跌转换背后,市场情绪波动明显,投资者对糖类商品的供需关系重新评估。 与此同时,咖啡期货市场全线上演上涨行情,其中罗布斯塔咖啡期货表现尤为抢眼,涨幅高达4.58%。这反映出全球咖啡市场对供应紧张的担忧情绪有所加...
04:51
2025年8月15日,北京时间,全球领先的半导体行业基础设施供应商应用材料公司正式发布其第三财季财报,再次展现强劲的增长势头。财报显示,公司当季净销售额高达73亿美元,不仅成功超越市场预期,更较分析师此前预测的72.1亿美元实现了显著增长。这一亮眼表现充分印证了当前半导体市场的旺盛需求,为应用材料公司带来了超出预期的业绩回报。 在业务板块方面,半导体系统业务...
04:51
2025年8月15日,一则重磅消息在金融界引发广泛关注:电动汽车充电解决方案提供商Motive正式宣布选定全球顶级投行摩根大通作为其美国首次公开募股(IPO)的主承销商。这一关键决策标志着Motive正式启动了其雄心勃勃的赴美上市计划,预示着这家快速发展的绿色能源企业即将踏入国际资本舞台。 作为华尔街最具影响力的投行之一,摩根大通将凭借其丰富的经验和广泛的全...
04:51
2025年8月15日,北京时间,科技界传来重磅消息。据多方知情人士透露,加州云基础设施公司Lambda Inc正积极筹备新一轮融资,目标估值区间锁定在40亿至50亿美元。这一雄心勃勃的计划不仅彰显了Lambda Inc在云计算领域的强劲发展势头,更预示着该公司未来可能引发的行业格局变革。 据悉,Lambda Inc已与多家国际知名投资银行展开深度合作,就最快...
04:51
2025年8月15日,北京时间,沙特中央银行的最新13F持仓报告揭示了其在二季度积极的投资策略调整。报告显示,沙特央行通过战略性建仓,显著增加了对能源精选行业SPDR基金的配置,同时积极买入VanEck半导体ETF、景顺QQQ信托系列1以及SPDR标普500 ETF信托等主流ETF产品,展现出对科技板块和全球股市的看好。 在个股层面,沙特央行同样展现出灵活的...
03:33
财联社8月15日快讯 国际原油期货市场迎来显著反弹,当日结算价涨幅接近2个百分点。具体来看,备受关注的WTI 9月原油期货主力合约收报63.96美元/桶,上涨2.09美元,表现强于市场预期;而布伦特10月原油期货同样录得上涨,最终报66.84美元/桶,涨幅为1.84美元。 市场分析显示,此次原油价格上涨主要源于全球供应端收紧的预期增强。近期多国能源政策调...
03:33
2025年8月14日夜间交易时段,中国金融市场的能源与贵金属板块呈现出截然不同的走势。上期所原油期货2509合约逆势上涨,收盘价报收488.20元人民币/桶,涨幅达到0.95%。这一积极表现不仅显示出市场对全球原油供应格局的重新评估,更可能折射出亚洲地区经济复苏带来的需求预期改善。 与此同时,贵金属市场却遭遇普遍回调。沪金夜盘价格承压下跌,跌幅为0.55%,...