微新创想(Idea2003.com)6月20日 消息:谷歌深度学习中心近日宣布,其研发的 “Bigger,Better,Faster”(BBF)AI算法在强化学习领域取得重大突破。该算法仅用两小时便成功掌握26款Atari游戏,其学习效率与人类相当,为AI解决现实世界问题提供了新的可能性。

强化学习作为谷歌深度学习中心的核心研究方向,在推动人工智能发展方面发挥着关键作用。然而传统强化学习算法存在两大瓶颈:一是需要海量训练数据,二是计算资源消耗巨大。为了突破这些限制,谷歌深度学习中心联合米拉大学和蒙特利尔大学的研究团队,共同推出了BBF模型。

在Atari基准测试中,BBF模型的表现不仅超越了人类水平,更创造了惊人的效率。与其他强化学习算法不同,BBF无需预先训练模型,而是通过直接与游戏世界交互,从获得的奖励和惩罚信息中学习最佳策略。研究团队通过采用更大规模的神经网络、自我监督训练方法等创新技术,显著提升了算法效率。值得注意的是,BBF模型仅需单个Nvidia A100 GPU即可完成训练,而传统方法则需要更强大的计算资源支持。

尽管目前BBF模型尚未在所有29款基准测试游戏中超越人类表现,但与其他模型的55款游戏对比显示,BBF在数据量仅相当于其他系统1/500的情况下,仍能保持相当水平。这一发现不仅验证了Atari基准测试作为强化学习评估的有效性,也为小型研究团队提供了宝贵的资源支持。与以往高效强化学习算法不同,BBF在扩展性方面表现出色,能够随着更多训练数据的加入持续提升性能。

该研究团队表示:”我们希望通过这项工作,激励更多研究者推动深度强化学习的样本效率边界,最终实现人类水平的智能表现。”这一突破性进展或将对当前以自我监督模型为主导的AI技术格局产生深远影响。

BBF算法相关论文:https://arxiv.org/pdf/2305.19452.pdf

最新快讯

2026年02月05日

05:15
2026年2月5日,波音公司宣布将为新加坡航空集团运营的波音737 MAX和787机队中逾75架飞机提供起落架置换服务。该合作在新加坡达成,由波音工程与售后服务团队执行,旨在提升机队安全性和运行可靠性。服务涵盖检测、拆卸、安装及认证全流程,预计分阶段实施。此举系双方深化维保合作的重要举措,未涉及飞机停飞或航班调整。
05:15
2026年2月5日,美国加州门洛帕克,Meta公司内部备忘录确认推出代号为“Avocado Model”的全新预训练大语言模型。该模型系Meta迄今能力最强的自研大模型,聚焦多任务泛化、长上下文理解与高效推理。目前处于内部评估阶段,尚未对外公开技术细节或上线时间表。此举旨在强化其在AI基础设施与生成式应用领域的竞争力,支撑旗下社交平台及元宇宙战略升级。
04:15
2026年2月5日,苹果公司面向Apple Watch用户正式推送watchOS 26.3 RC版本(内部编号23S618)。此次更新距上一版RC发布仅隔9天,属常规迭代节奏。更新适用于所有支持watchOS 26的设备,用户可通过已注册的Apple Beta版软件计划,在【设置】→【通用】→【软件更新】→【Beta版更新】中获取。本次为正式发布前的候选版...
04:15
2026年2月5日,苹果公司面向iPhone和iPad用户正式推送iOS/iPadOS 18.7.5系统更新(版本号22H311)。本次更新距上一版18.7.4发布仅隔9天,属快速安全补丁更新。因区域服务器缓存差异,部分用户可能延迟约半小时收到推送提示。更新适用于所有支持iOS/iPadOS 18的设备,官方未同步公布具体修复内容,IT之家后续将跟进详解。
04:15
2026年2月5日,苹果公司面向iPad用户正式推送iPadOS 26.3 RC(候选发布版)更新。此次更新距上一版RC发布仅隔9天,属快速迭代。更新适用于已注册Apple Beta版软件计划的用户,可通过【设置】→【通用】→【软件更新】→【Beta版更新】获取。该版本为iOS/iPadOS 26系列重要过渡版本,预计将在正式版发布前完成最终验证。具体新功...
04:15
2026年2月5日,苹果向Mac用户推送macOS 26.3 RC(内部版本号25D122)。此次更新距上一版RC发布相隔9天,属macOS 26系列正式发布前的关键候选版本。更新面向已注册Apple Beta版软件计划或开发者计划的用户,可通过系统设置中的“软件更新”获取。本次RC旨在修复漏洞、优化稳定性,为最终正式版做准备。目前官方尚未公布具体新功能细...
04:15
2026年2月5日,苹果向Vision Pro用户推送visionOS 26.3 RC系统更新(版本号23N619)。此次更新距上一版RC发布仅隔9天。因区域服务器缓存差异,部分用户可能延迟约半小时收到升级提示。更新面向所有已注册开发者及公开测试用户,属正式发布前的候选版本。苹果未同步公布具体功能改进,IT之家表示后续将跟进详解。该版本为visionOS ...
02:43
2026年2月5日,Stellantis公司因电池工厂产能不足,导致旗下标致品牌纯电动车型交付延迟。涉及车型包括标致3008和5008,交付周期最长延后八个月。事件发生于欧洲及全球市场,影响客户订单履约。公司正协调供应商并优化电池供应链以缓解延误。此次延迟凸显电动化转型中动力电池供给的关键瓶颈。
02:43
2026年2月5日,SpaceX在加州总部与多家非美国银行举行会晤,推进首次公开募股(IPO)筹备工作。公司计划于2026年内上市,1月中旬已组织欧洲及其他地区银行竞标IPO初级承销角色。此举发生在SpaceX宣布收购xAI之前,旨在拓宽国际资本市场合作渠道。马斯克旗下这家火箭与卫星制造商正加速资本化步伐,但尚未公布具体上市时间、估值或募资规模。
01:43
2026年2月5日,美国芯片制造商Cerebras Systems宣布完成H轮融资,成功募集10亿美元资金,公司估值达约230亿美元。本轮融资由多家全球知名投资机构领投,资金将主要用于加速AI大模型专用芯片的研发、扩大制造产能及拓展全球企业客户合作。该公司总部位于加州森尼韦尔,长期专注于开发超大规模晶圆级AI计算系统。此次融资标志着其在高性能AI硬件赛道的...
00:43
2026年2月5日,昌平实验室刘河生教授团队在《自然》发表研究,首次阐明帕金森病关键机制——‘躯体认知网络’与深部脑核团的病态增强连接。研究基于800余例人脑影像数据,解释了深部脑刺激及药物疗效原理,并研发出无创精准脑环路刺激系统。临床显示,新靶点干预两周有效率达55.5%,显著高于传统方案(22.2%)。该设备已获国家医疗器械注册许可。成果由昌平实验室联...
00:11
2026年2月4日,深圳水贝黄金市场出现金条、银条现货紧缺现象。受金价银价近期显著回调及春节消费旺季双重影响,下游零售端需求激增,但上游商户因前期高价囤货、当前惜售而选择“捂货待涨”,导致货源紧张。记者实地走访发现,多数档口已无常规规格金条、银条现货,零售金饰销售同样火爆,消费者排队选购。业内分析认为,短期金价或维持高波动震荡,但中长期上行逻辑未变。