微新创想(Idea2003.com)6月20日 消息:谷歌深度学习中心近日宣布,其研发的 “Bigger,Better,Faster”(BBF)AI算法在强化学习领域取得重大突破。该算法仅用两小时便成功掌握26款Atari游戏,其学习效率与人类相当,为AI解决现实世界问题提供了新的可能性。

强化学习作为谷歌深度学习中心的核心研究方向,在推动人工智能发展方面发挥着关键作用。然而传统强化学习算法存在两大瓶颈:一是需要海量训练数据,二是计算资源消耗巨大。为了突破这些限制,谷歌深度学习中心联合米拉大学和蒙特利尔大学的研究团队,共同推出了BBF模型。

在Atari基准测试中,BBF模型的表现不仅超越了人类水平,更创造了惊人的效率。与其他强化学习算法不同,BBF无需预先训练模型,而是通过直接与游戏世界交互,从获得的奖励和惩罚信息中学习最佳策略。研究团队通过采用更大规模的神经网络、自我监督训练方法等创新技术,显著提升了算法效率。值得注意的是,BBF模型仅需单个Nvidia A100 GPU即可完成训练,而传统方法则需要更强大的计算资源支持。

尽管目前BBF模型尚未在所有29款基准测试游戏中超越人类表现,但与其他模型的55款游戏对比显示,BBF在数据量仅相当于其他系统1/500的情况下,仍能保持相当水平。这一发现不仅验证了Atari基准测试作为强化学习评估的有效性,也为小型研究团队提供了宝贵的资源支持。与以往高效强化学习算法不同,BBF在扩展性方面表现出色,能够随着更多训练数据的加入持续提升性能。

该研究团队表示:”我们希望通过这项工作,激励更多研究者推动深度强化学习的样本效率边界,最终实现人类水平的智能表现。”这一突破性进展或将对当前以自我监督模型为主导的AI技术格局产生深远影响。

BBF算法相关论文:https://arxiv.org/pdf/2305.19452.pdf

最新快讯

2026年02月07日

07:47
2026年2月6日,苹果更新《App审核指南》,将“随机或匿名聊天”类应用列入高风险名单,允许无需通知即予移除。此举针对Chatroulette式体验及缺乏实名与审核机制的UGC社交应用,旨在遏制色情、欺凌、人身威胁等内容。新规明确,若App核心功能导向此类行为,将不被允许上架。开发者须强化实名认证、实时内容审核及举报响应机制,否则面临即时下架风险。
07:47
2026年2月6日,苹果WebKit团队发布Interop 2025年度回顾。该项目由苹果、谷歌、微软、Mozilla等联合发起,旨在提升跨浏览器兼容性。2025年,团队聚焦CSS、JavaScript等20个关键领域,Safari测试得分从年初43分升至99分,为所有参测浏览器中涨幅最大。行业整体通过率由29%升至97%,四大浏览器实验版均达99%。In...
07:47
2月7日5时20分,印尼西南群岛(南纬7.80度、东经130.35度)发生5.7级地震,震源深度10千米。此次地震由权威地震监测机构正式测定,属浅源地震,可能引发局部震动及次生影响。目前暂无人员伤亡和财产损失报告,当地未发布海啸预警。相关部门正评估灾情并加强监测。
07:47
2026年2月6日,科技媒体Appleinsider指出,Apple Music推荐算法缺乏应对临时收听行为的防御机制。用户偶然点播节日歌曲、游戏原声或儿歌后,个人电台与新歌推荐将持续数周偏离原有偏好。纠偏需手动关闭‘使用听歌历史’或启用专注模式,但操作隐蔽、依赖用户主动执行。一次无心播放《Yo Gabba Gabba》等非典型内容即可能触发长期误判。相较...
07:47
2026年2月6日,Take-Two首席执行官施特劳斯·泽尔尼克透露,《GTA6》营销工作将于2026年夏季正式启动。此举被业界视为游戏有望按计划于2026年11月发售的重要信号。此前该作已从2025年秋季跳票。泽尔尼克强调公司每日监控开发进度,并称营销将“克制细腻”,凸显其艺术属性而非普通商品。目前R星仅发布两支预告片、设定图及官网信息,尚未公开实机演示...
07:16
2026年2月6日,苹果公司计划向第三方语音助手开放CarPlay部分权限,允许用户通过车机直接调用兼容的AI语音应用。此举旨在缓解新版个性化Siri进展缓慢带来的用户体验压力。目前Siri仍为默认且不可替换的唤醒助手,第三方助手需通过对应App启动,不支持更改唤醒词或替换Siri物理按钮。该功能预计在未来几个月内上线,将改善此前依赖iPhone+车载免提...
06:16
2026年2月7日,人工智能芯片初创公司SambaNova完成3.5亿美元新融资。美国私募股权公司Vista Equity Partners参与本轮融资,英特尔公司承诺出资至多1.5亿美元。本轮融资旨在加速SambaNova在大模型推理芯片及软件栈领域的研发与商业化落地。SambaNova总部位于美国加州帕洛阿尔托,长期聚焦AI专用硬件架构。此次融资后,公...
05:16
2026年2月7日,苹果公司宣布计划允许外部语音控制型人工智能聊天机器人接入CarPlay车载系统。此举旨在提升车载交互体验,支持开发者基于iOS生态构建兼容的AI语音服务。接入将通过新API实现,强调隐私保护与本地化处理,不依赖持续云端通信。目前尚无具体上线时间表,首批合作方尚未披露。该调整标志着苹果在智能座舱领域进一步开放生态。
02:43
2026年2月6日,法国达能公司在荷兰主动召回多个批次诺优能婴幼儿配方奶粉。此次行动系因欧盟最新下调蜡样芽孢杆菌毒素限值,达能经与荷兰食品安全主管部门协调后实施。召回范围限于在荷销售的特定批次产品,不涉及其他国家市场。公司表示已启动追溯与消费者通知机制,并强调问题产品尚未报告健康损害案例。
02:43
2月7日,英伟达CEO黄仁勋在公开表态中指出,Anthropic和OpenAI目前已实现盈利。他强调,当前大规模人工智能资本支出既合理又必要,以支撑长期技术基础设施建设。黄仁勋判断,构建完整、可靠的人工智能生态体系需7至8年时间。该言论发布于北京时间2026年2月7日,反映了头部企业对AI产业化进程的阶段性评估与战略预判。
02:43
2026年2月7日,英伟达首席执行官黄仁勋公开表示,公司与OpenAI之间不存在任何矛盾纷争。他强调,OpenAI正积极采用英伟达最新一代AI芯片以支撑其大模型研发与部署。此举凸显双方在高性能计算与人工智能基础设施领域的深度合作。黄仁勋未透露具体芯片型号及供货细节,但确认合作持续稳定推进。
00:11
2026年1月13日,沪铝主力合约价格首次突破2.5万元/吨,创历史纪录。受下游建筑、轨道交通等领域订单增长推动,云南多家电解铝企业满负荷运行。以云南铝业为例,其年产能308万吨,铝锭日产量约3500吨,当前实现当日生产、当日发运,库存为零。满产状态自2026年初持续至今,反映终端需求强劲及供应链高效运转。