AI助力可控核聚变取得重大突破!DeepMind最新研究通过强化学习算法,将等离子体形状精度提升65%,为“人造太阳”精准放电指明方向。AI驱动的可控核聚变,未来可期。

秘密研发三年,DeepMind去年宣布首次成功用AI控制“托卡马克”内部等离子体,其成果登上Nature期刊。时隔一年,谷歌AI团队在该领域再创佳绩。最新实验模拟显示,等离子体形状精度提高了65%。DeepMind团队基于前期研究,对智能体架构和训练过程进行算法优化。研究发现,等离子形状精度提升的同时,电流稳态误差降低,学习新任务所需训练时间更少三分之二。论文链接:https://arxiv.org/pdf/2307.11546.pdf

从“星际争霸”AI击败人类,到AlphaGo战胜李世石、AI预测蛋白质折叠,DeepMind已将人工智能算法应用于足以改变世界的多个领域。此次,DeepMind最细实验模拟结果,为强化学习实现精确放电提供了新思路。这一里程碑式成果,标志着“人造太阳”可控放电距离人类终极能源的未来又近了一步。

一旦人类掌握可控核聚变能,将拥有取之不尽的清洁能源。反馈控制对“托卡马克装置”运行至关重要,控制系统主动管理磁线圈,以控制拉长离子体的不稳定性,防止破坏性垂直事件发生。若能精确控制等离子体电流、位置和形状,还可实现热排放,甚至能量管理。科学家们长期研究等离子体配置变化对这些相关量的影响,因此需要能适应新配置、快速变化的系统。

传统上,等离子体精确控制通过连续闭环实现,控制设计者预先计算前馈线圈电流,建立反馈回路。等离子体形状和位置无法直接测量,需通过磁场测量间接估算,尤其是形状必须使用平衡重构代码实时估算。这类系统虽成功稳定了大范围放电,但设计复杂耗时,尤其针对新型等离子体情况。

强化学习(RL)成为构建实时控制系统的全新范式。2022年,DeepMind团队在Nature发表的论文表明,RL设计的系统能成功实现“托卡马克磁控制”。该系统让RL智能体通过与FGE托卡马克模拟器交互,学习控制托卡马克配置变量(TCV),智能体学习的控制策略被集成到TCV控制系统中,通过观察磁场测量,为19个磁控线圈输出指令。研究展示了RL智能体控制各种情况的能力,包括高度拉长的等离子体、雪花,甚至同时稳定两个独立等离子体“液滴”配置的新方法。

然而,RL方法存在缺点,限制了其作为托卡马克等离子体控制实用解决方案的应用。最新研究中,DeepMind决定解决三个挑战:指定可学习且能激发精确控制器性能的标量奖励函数、追踪误差的稳态误差、较长的训练时间。团队提出“奖励塑形”方法提高控制精度,通过提供明确错误信号解决稳态误差问题,采用片段分块和迁移学习缩短训练时间。针对复杂放电情况采用多重启动方法,大幅缩减训练时间。研究还表明,当新情景与之前情景接近时,使用现有控制策略进行热启动训练非常有效。

最新论文中,研究人员采用与Nature论文相同的实验。RL通过与模拟环境交互学习特定实验控制策略,然后TCV上部署由此产生的放电策略。使用FGE进行动态建模,添加随机性模拟传感器值和电源噪声,改变等离子体参数。传感器噪声适用于每一步骤,等离子体参数变化(电阻率、压力、安全系数)在一个事件内恒定,但事件间随机取样。使用最大后验优化(MPO)算法制定控制策略,该算法依赖两个神经网络:输出当前策略的actor网络和近似策略预期累积奖励的critic网络。智能体与1000份FGE环境交互,收集观察结果、采取行动及获得的奖励。每步奖励根据等离子体状态与参考值中目标值的接近程度计算,并辅以其他因素,如避免不良等离子体状态。

从最优控制范式到强化学习的直接转换是,为每个要最小化的误差项设置奖励分量,将每个分量映射为标量值,合并为标量奖励值。根据观察、行动和奖励的记录序列,智能体使用正则化损失函数上的梯度下降交替更新策略和critic网络。对于等离子体放电,actor网络被限制在能以10kHz频率执行的小型架构中,但critic网络在训练过程中可足够复杂地学习环境动态。

面向实用的强化学习控制器在具体任务中演示了智能体训练过程。首先讨论通过奖励塑形提高控制精度,然后介绍通过积分观测减少稳态误差的工作,讨论使用“episode chunking”改善训练时间,最后探讨迁移学习提高训练效率。奖励塑形(reward shaping)传统控制算法通过多种方法最小化主动测量数量误差,而强化学习(RL)算法旨在最大化通用定义的奖励信号。在训练过程中,奖励最大化目标推动智能体行为演化,但在部署时不计算奖励值。经典控制算法通过调整控制增益和权衡权重调整性能,而强化学习中奖励函数对被学习的控制器行为至关重要,因此需要仔细设计奖励函数调整控制器行为。

研究人员发现,通过调整奖励函数设计,可以快速适应智能体行为,权衡目标的不同方面。塑形奖励函数对于创建准确的强化学习控制策略至关重要,且可通过使用更新后的奖励函数继续训练,将智能体应用到新目标上。研究人员在先前研究基础上修改了为磁控设计的奖励函数,使用加权的SmoothMax函数组合奖励组件的值。某些情况下,一个单独的奖励组件由多个相关误差量构成,如多个控制点处的形状误差。SmoothMax函数定义如下所示,许多喂给SmoothMax函数的单独组件的构建方式与经典控制器类似,但奖励组件不受限于从传感器测量中获得,提供了额外灵活性。

研究人员使用SoftPlus转换获得标量奖励组件,理论上参数选择近似等效,因为它们是奖励的单调调整,不应对最优策略产生很大影响。实践中,研究者依赖梯度下降,没有完美全局优化器,需要在随机回报情况下探索全局空间。很好和很差的紧密值难以找到可观的奖励区域,较宽松的很差值难以发现精确控制,因此“紧密”奖励参数可能更适用于初始条件接近目标状态的情况。

简单环境中的奖励塑形在研究人员的初始实验中,考虑了三种训练方法,重点是通过修改“shape_70166”任务中形状误差的奖励组件超参数来最小化形状误差。1. 基准线:采用之前研究的默认奖励参数 – good =0.005,bad =0.05。参考值产生较为宽松的奖励函数,奖励信号集中在较高误差值,激励增加形状控制的准确性。2. 窄化奖励:将参数更新为good =0,bad =0.025。产生更为严格的奖励函数,奖励信号集中在较低误差值,鼓励提高控制形状的准确性。3. 奖励调度(reward schedule):将good和bad的值在训练过程中逐渐调整为更加尖峰,good =0,bad从0.1逐渐减少到0.025,共进行600万次策略更新步骤。该调度在训练开始时提供较宽的奖励区域帮助探索,随着训练进行逐渐收紧奖励函数,鼓励准确性。

积分器(integrator)反馈积分误差的近似可通过递归神经网络计算,但更容易过度拟合仿真动态。研究中采用更简单的解决方案:手动计算积分误差,并将其附加到前馈策略所观察到的观测集中。特别关注减少等离子体电流(??)的稳态误差,之前研究的训练策略表现出明显偏差,误差可容易计算。与传统方法稍有不同,向网络提供时间?的平均等离子体电流误差定义如下。在“shape_70166”任务中评估了将平均误差信号纳入考虑的好处,该任务中等离子体电流和形状参考值恒定,环境初始化后实际值接近参考值,智能体主要目标是控制稳态误差。结果显示,积分器反馈显著降低了等离子体电流偏差。

Episode Chunking TCV上的实验持续1-2秒,相当于以10kHz的控制频率进行10,000-20,000个时间步。FGE模拟器在训练过程中使用一颗AMD EPYC7B12CPU核心,每个典型模拟步骤大约需要2秒钟,使用随机动作。因此,FGE生成包含10,000个步骤的一次完整episode大约需要5小时。在最理想情况下,即智能体在第一次尝试之前已经知道最佳策略,训练时间仍然会约为5小时。实际上,强化学习智能体需要探索动作空间以找到最佳策略,因此根据任务复杂性,训练时间可能从几天到几周不等。此外,研究人员的任务结构使得智能体需要按顺序学习相对独立的“技能”。例如,在“showcase_xpoint”任务中,智能体必须先使等离子体变形,然后移动其垂直位置,然后改变其流向,最后恢复原始形状。观察到该任务的学习过程发生在两个明显的阶段,首先智能体学会操作有限的等离子体,理解如何延展、移动和保持等离子体,然后发现如何成功地将等离子体转向。

将分块(chunking)技术应用于“showcase_xpoint”任务,并分别使用两个/三个块,可以显著缩短训练时间。两个块的设置比基准线更快,三个块的设置不仅提供进一步的训练加速,而且学习曲线更加平滑。研究人员尝试了两种不同的三块设置,结果类似。迁移学习在试图减少训练时间时,一个自然的问题是问是否可以重用之前放电时训练的模型,即智能体在解决一个初始任务时积累的知识在多大程度上可以转移到一个相关的目标任务上。研究以两种形式考察迁移学习的性能:1. 零样本(Zero-shot):在目标任务上运行在初始任务上学习的策略,而无需进行任何额外的数据收集或策略参数更新。2. 微调(Fine tuning):使用在初始任务上学习的模型的权重来初始化策略和值函数,然后使用这些权重在新的目标任务上通过与环境交互进行训练,其中目标任务作为奖励。需要注意的是,这要求在两个任务中使用相同的架构(actor和critic网络)。在两种情况下,研究人员使用在“showcase_xpoint”任务上训练的智能体参数作为迁移的初始参数。

第一个实验考察当参考等离子体电流调整到新的参考水平时的迁移学习。研究人员选择了三种变化,目标??从基准线-150kA调整到-160A,然后-170A,最后-100kA。测试了在“showcase_xpoint”上训练的策略,首先在目标任务上没有任何额外训练,然后允许在目标任务上进行新的训练。零样本结果的奖励和??误差显示,在小的??变化情况下,智能体表现良好,但在较大的变化情况下,尤其是对于较大的??变化,智能体表现较差。微调的结果显示,微调智能体在所有情况下比从头开始训练的智能体更快地收敛到近乎最优的策略,尽管在最大的50??变化情况下差异较小。

第二个实验考察等离子体目标位置的变化。研究人员沿着z轴向下调整目标形状,分别平移2厘米、10厘米和20厘米。对于这个实验,观察到以下结果:1. 零样本(Zero-shot):对于最小的平移(2厘米),零样本迁移效果非常好,任务表现达到了最佳可实现性能的97%以上,形状误差也很小。对于较大的10厘米平移,表现较为一般,只获得了85的奖励,形状位置误差更大。对于最大的20厘米平移,表现较差,只获得了35的奖励,由于未能成功转向等离子体。2. 微调(Fine tuning):对于2厘米的平移,迁移学习效果显著,对于10厘米平移,三个不同的种子中有两个种子的效果有效。而对于较大的20厘米平移,迁移学习似乎对性能产生了不利影响。总体而言,结果表明迁移学习在当前形式下是有用的,但也有一定的局限性。正如预期的那样,目标任务与初始任务之间的差距越大,迁移学习的性能就会降低,尤其是在零样本学习的情况下。然而,值得注意的是,在运行硬件实验之前,通过模拟进行零样本评估的成本相对较低。研究人员还发现,某些类型的任务变化比其他任务更容易进行迁移学习,在他们的实验中,相对较大的等离子体电流变化似乎更适合于迁移学习,而不是大的位置变化。

TCV上的托卡马克放电实验之前的部分仅关注使用FGE模拟器进行仿真、训练和评估控制策略。考虑到托卡马克建模的复杂性和挑战,不能盲目地认为仿真中的性能改进与实际放电中的性能改进完全相同。虽然更好的仿真结果可能对实际托卡马克的改进结果是必要的,但往往是不够的。如果没有额外明确的工作来减小仿真与实际之间的差距,模型不匹配误差可能会成为一个很主要的问题。对于使用强化学习获得的策略,已知会过度拟合到不完美的模拟器,这种情况尤为明显。因此,研究人员在TCV托卡马克上对一些上述的仿真改进进行了测试,以评估当前工作的优势和局限性,并为下一步的改进提供方向。

等离子体形状精度的奖励塑形研究人员检查了奖励塑形在两种不同配置和目标上带来的精度改进:减少形状稳定任务中的LCFS误差和提高“snowflake_to_perfect”任务配置中的X点精度。研究人员将模拟结果与TCV上的实验结果以及来自Degrave等人(2022)的可比实验进行了比较。与先前的研究一样,研究人员通过将演员网络创建为共享库对象来部署控制策略,其中命令的动作是输出高斯分布的均值。研究人员首先测试了一个控制策略,该策略通过在奖励塑形部分中讨论的奖励塑形方法来减少“shape_70166”稳定任务中的LCFS误差。对于这个稳定任务,研究人员使用了TCV的标准击穿过程和初始等离子体控制器。在0.45秒时,控制权移交给学习的控制策略,然后它试图在1秒的持续时间内维持固定的等离子体电流和形状。放电后,研究人员使用LIUQE代码计算重构的平衡态,在1秒的放电过程中的每个0.1毫秒时间片内,计算等离子体形状的误差。研究人员比较了三个实验的精度,分别从模拟放电和TCV放电中测量形状误差:(a) 一种在本研究之前已经存在的基线RL控制器(“Previous”), (b) 一种使用本研究中更新的训练基础设施的更新的基线代理(“Updated”), (c) 一种使用奖励塑形训练的代理,就像在奖励塑形部分描述的Fixed Reward一样。

X点位置精度的奖励塑形接下来,研究人员将比较奖励塑形对更复杂的“snowflake”配置的影响。该策略的训练奖励被塑形以增加X点控制的准确性。与稳定实验中一样,等离子体是通过标准的TCV程序创建和初始控制的,在0.45秒时将控制权移交给强化学习控制器。在这个实验中,RL训练的策略成功地建立了一个两个X点距离为34厘米的“snowflake”。然后,该策略成功将两个X点带到了目标距离6.7厘米的位置,接近建立一个所谓的“完美snowflake”。然而,在1.0278秒(即交接后的0.5778秒),等离子体因垂直不稳定性而发生破裂。经检查,发现控制器在保持一致形状方面存在困难,其中垂直振荡增加,活动的X点在两个X点之间切换,导致失控。下表显示了在等离子体成功控制期间对X点追踪的准确性。

通过“Episode Chunking”来加速训练最后,研究人员验证了使用“Episode Chunking”来减少训练时间,特别是验证在TCV放电中是否出现可能的“不连续性”。研究人员进行了一个在“showcase”配置下使用3个块进行训练的实验。这个实验的重建平衡态的时间轨迹可以看到,研究人员发现实验按预期进行,没有因为“episode chunking”而产生明显的伪影。这证明了这种训练加速方法没有损失质量。

20世纪50年代起,众多科学家们致力于探索、攻克可控核聚变这一难题。DeepMind最新研究,用强化学习算法大幅提升了等离子体的精度,极大缩短了学习新任务的训练时间。这为可控核聚变在未来实现“精准放电”,能量管理铺平了道路。在为人类获取海量清洁能源,以改变未来的能源路线图上,DeepMind再次点亮了一盏明灯。参考资料:https://arxiv.org/abs/2307.11546https://twitter.com/GoogleDeepMind/status/1684217852289601541

最新快讯

2025年12月15日

14:02
2025年12月15日,贝耐特光学科技正式宣布成功完成数千万元人民币规模的A++轮独家融资,由知名投资机构安芯投资独家领投。此次融资不仅彰显了资本市场对贝耐特光学科技创新实力的高度认可,更将为其未来的技术突破与产业升级注入强劲动力。据悉,所获资金将全面投向三大核心领域:一是持续深耕LCoS(硅基液晶)空间光调制器及光谱分析模块的核心技术研发,力求在显示技术领...
14:02
2025年12月13日,中国汽车品牌奇瑞与法国西部汽车俱乐部(ACO)在马来西亚正式签署战略合作协议,标志着奇瑞成为首个正式进军勒芒24小时耐力赛的中国车企。此次合作中,奇瑞旗下高端品牌星途将肩负重任,代表中国汽车品牌开启参与世界顶级耐力赛的新篇章。勒芒赛事由ACO主办,每年6月在法国举行,是全球最著名、最具挑战性的三大汽车赛事之一,以其严苛的赛道环境和卓越...
14:02
2025年12月15日,广西数据集团有限公司正式宣告成立,标志着广西在数字经济领域迈出关键性步伐。该公司法定代表人为周飞,注册资本高达10亿元人民币,彰显了其雄厚的资本实力和发展潜力。作为一家具有地方战略意义的企业实体,广西数据集团有限公司的注册地位于广西壮族自治区,这一地理位置优势为其未来的业务拓展奠定了坚实基础。 在股权结构方面,该公司由多家实力雄厚的机...
14:02
2025年12月15日,贵州茅台股价迎来第四个交易日连续上涨,盘中涨幅一度突破1%。这一积极表现背后,市场传闻公司即将推出"控量"政策成为焦点。针对外界关注,茅台集团相关工作人员明确表示,该政策举措目前仍处于研究阶段,具体的实施方案预计将在12月28日举办的渠道商联谊会上正式公布。 据悉,茅台产品投放始终坚持以终端动销情况为依据,实施精准投放策略。工作人...
14:02
2025年12月15日,中国新能源汽车领域迎来重大合作里程碑。首驱科技与广西柳州市政府正式签署战略协议,宣布将在柳东新区核心区域投资15.21亿元人民币,建设华南地区规模领先的总部基地及智能电动车生产制造中心。这一项目承载着打造区域新能源汽车产业新引擎的宏伟目标,规划年产能高达150万台,将全面聚焦车规级智能两轮电动车的研发与量产,涵盖从核心技术突破到智能化...
14:01
2025年12月,中共西藏自治区委员会正式发布了《“十五五”时期国民经济和社会发展规划建议》,为西藏未来的发展擘画了宏伟蓝图。这份重要文件明确提出,将着力优化开放格局,构建具有西藏特色的对外开放新体系。该体系以拉萨为核心中心,以东部和西部为两翼支撑,同时联动多个口岸,形成全方位、多层次、立体化的开放格局。 作为“一带一路”倡议的重要参与者,西藏将深度融入西部...
14:01
在人工智能浪潮席卷创意产业的当下,一款名为《Codex Mortis》的类《吸血鬼幸存者》游戏横空出世,以惊人的方式宣告自己的存在——从代码到美术,再到音乐,全部由人工智能驱动完成。开发者 Grolaf(又名 Crunchfest)自豪地宣称,这款仅用三个月时间就诞生的独立游戏,是"真正意义上100% AI 生成的游戏"之一。据开发者自述,整个开发过程几乎完...
14:00
谷歌研究院、谷歌 DeepMind 与麻省理工学院近日联合发布的一项突破性研究,颠覆了传统观点中“更多智能体意味着更好结果”的认知。研究团队通过精心设计的180项控制实验,深入探究了多智能体系统在不同任务场景下的实际表现,结果令人惊讶:系统性能波动极大,有的任务效率提升高达81%,而另一些任务却出现了高达70%的性能下降。 研究表明,任务的类型对多智能体系统...
14:00
12月13日,在第二届CCF中国数据大会上,蚂蚁数科重磅宣布将全面开源其核心数据智能体技术Agentar SQL的全套资源,包括学术论文、源代码、预训练模型以及详细的使用指南。这一创新举措旨在推动企业数字化转型,使非专业人员也能通过自然语言轻松进行商业数据查询与分析,构建更精准高效的智能数据分析基座。 作为开源计划的首步,蚂蚁数科率先发布了实时文本转化结构化...
13:38
近日,美国佐治亚州引发社会广泛关注的一则新闻,主角是体重高达276斤的死刑犯斯泰西•汉弗莱斯。这位52岁的囚犯因在2003年犯下持枪抢劫并残忍杀害两名女性的重罪,被依法判处死刑。在行刑前,汉弗莱斯提出了一份令人瞠目结舌的“最后餐食”请求,这份被批准的菜单堪称一场“奢华盛宴”,迅速在网络和社交媒体上掀起轩然大波。 据悉,按照美国仍保留死刑执行州中的惯例,囚犯在...
13:31
2025年12月15日,一项由中国科学院青藏高原研究所牵头、联合全球数十家顶尖科研机构共同完成的突破性研究,成功揭示了大麦种子休眠的核心遗传机制。这项发表在《科学》期刊上的重要成果,通过深入分析大麦基因组,精准定位了调控种子休眠的关键基因位点,为培育适应极端气候的耐逆作物品种提供了全新的科学依据。 该研究团队利用先进的基因组测序和生物信息学技术,系统解析了大...
13:31
2025年12月15日,派杰投资机构正式宣布将可口可乐公司股票的目标价从81美元上调至87美元,这一调整幅度显著,充分体现了市场分析师对可口可乐未来业绩的乐观预期。据派杰投资发布的最新研究报告显示,此次目标价上调主要基于对可口可乐公司稳健经营策略和持续增长潜力的深度评估。 可口可乐在全球饮料市场的长期竞争优势和稳定的市场份额是支撑此次目标价上调的核心逻辑...