英伟达开源CALM模型：单张A100训练50亿步，虚拟角色零样本生成超逼真

2023-08-14 10:17:00 互联网 88 次阅读

编者按：本文经微信公众号新智元（ID：AI_era）授权转载，编辑：编辑部。8月8日深夜，英伟达CEO黄仁勋在顶级计算机图形学会议SIGGRAPH上发表了震撼人心的演讲，全面展示了公司在人工智能与元宇宙领域的雄心壮志。就在此前不久，被SIGGRAPH 2023正式收录的CALM模型的正式开源，更是让游戏和动画开发行业直接驶入了AI加速的快车道。CALM模型能够自主学习人类动作，无需额外训练即可自由合成和控制虚拟角色的动作，其逼真自然的效果令人惊叹。或许整个游戏和动画产业的格局即将迎来颠覆性变革，VR场景中的人物与角色也将彻底摆脱生硬感，元宇宙的加速到来已是大势所趋！想象一下AI控制角色以蹲行姿态接近目标，当距离足够近时精准踢腿，最终又以双臂高举的方式庆祝胜利的场景，这便是CALM模型带来的无限可能。

具体而言，英伟达联合以色列理工学院、巴伊兰大学和西蒙菲莎大学共同研发出了一种创新的条件对抗潜模型（Conditional Adversarial Latent Models，CALM）。通过深度模仿学习，CALM成功捕捉了人类动作的复杂性与多样性，实现了对虚拟角色动作的直接控制。该方法不仅能够联合学习控制策略与动作编码器，还能对给定动作的关键特征进行精准重建，而不仅仅是简单复制。实验结果表明，CALM通过学习语义化的动作表征，能够实现对生成动作的精细控制，并为更高级的任务训练提供风格调整的强大支持。训练完成后，用户只需通过类似电脑游戏的直观界面，即可轻松操控虚拟角色。

论文地址：https://arxiv.org/abs/2305.02195
项目地址：https://github.com/NVlabs/CALM

CALM模型以对抗性技能嵌入技术为基础，并借鉴了其核心代码。研究人员利用单个A100 GPU，在4096个Isaac Gym环境中进行并行训练，累计完成5亿步操作。这一突破性成果为AI在虚拟角色控制领域的应用开辟了全新路径。

为了实现零样本任务解决方案，CALM模型采用了三阶段训练策略：（1）动作编码器和底层策略（解码器）的联合训练，将动作捕捉序列映射为控制模拟角色的动作；（2）利用潜空间调节训练高级策略，实现对执行动作方向的控制，同时保留所需的风格特征；（3）将前两阶段成果结合，通过简单的有限状态机解决任务，无需额外训练或精心设计奖励/终止条件。

在第一阶段——底层训练中，CALM模型学习了一个编码器和一个解码器。编码器接收动作参考数据集（关节位置时间序列），将其映射到低维潜表征。解码器作为底层策略，通过与模拟器交互生成类似参考数据集的动作。这一策略能够按需产生各种行为，但不受动作方向性的影响。例如，它可以被指示行走，却无法本能控制行走方向。为评估学习到的动作表征能力，研究人员测试了在潜空间中实现动作间平滑插值的能力。初始潜表征为”冲刺”，最终为”蹲下不动”，整个过程中潜表征线性插值，角色通过语义化转换实现平稳过渡，逐渐减速并调整上半身姿态。

第二阶段——方向控制，研究人员训练了一个高级任务驱动策略来选择潜变量。这些潜变量被提供给底层策略，后者据此生成所需动作。具体实现中，首先通过动作编码器获取动作潜表征，然后根据高级策略所选潜变量与代表所需风格的潜变量之间的余弦距离成比例地给予额外奖励，引导高级策略采用期望行为风格。训练完成后的方向控制器，能够精准控制角色动作形式和方向，例如”蹲下行走”、”举盾行走”和”奔跑”等复杂动作。

第三阶段——推理阶段，将前两阶段训练成果（底层策略和方向控制器）结合，实现无额外训练的复杂动作组合。用户只需创建包含标准规则和指令的有限状态机（finite-state machine，FSM）。这些规则和指令决定执行何种动作，类似游戏角色控制方式。例如，FSM可构建如下动作流程：（1）转身，（2）向目标蹲行直至距离足够近，（3）踢腿攻击，（4）双臂高举庆祝。这种设计使虚拟角色控制既灵活又直观，为元宇宙应用提供了强大支持。