编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:Aeneas 桃子,微新创想经授权转载。想象一下,当游戏角色被赋予生命,电子游戏将迎来怎样的变革?曾经这只是一个遥不可及的畅想,而如今,随着AI智能体的飞速发展,这一愿景正逐渐变为现实。最近,一位名为Foxmaster的YouTube作者创作了一个令人惊叹的「古墓丽影」原版视频,其中女主角劳拉竟由一个能够自主控制的AI智能体扮演!Foxmaster巧妙地运用机器视觉、定位、物体识别、动画、文本和语音等AI技术,为这个经典游戏角色注入了数字生命。就在不久前,备受瞩目的AI社区斯坦福智能体小镇正式开源,25个个性鲜明的AI智能体在「西部世界」般的虚拟城镇中生活、工作、社交。这或许预示着电子游戏的未来已悄然来临。
新智元,赞58
「古墓丽影」女主有了意识构建可以玩游戏的虚拟AI,这个概念在科幻作品中早已屡见不鲜。但Foxmaster的目标更加宏大——让AI角色如同真人一般鲜活。他选择了「古墓丽影」这款经典游戏,因为主角劳拉是一个性格鲜明、形象饱满的角色。Foxmaster的愿景是,这种个性不仅会影响游戏进程,更会决定最终结局。那么,如何让AI智能体Lara Croft在游戏中真正产生自我意识?Foxmaster通过一系列精妙的步骤,最终实现了这一突破。
首先,让AI学会游戏规则。 「古墓丽影」内置了详尽的教程,解释了所有游戏控制机制。Foxmaster让Lara像人类玩家一样,一步步完成教程。教程在Lara离开泳池时结束,作者趁机重启程序,进行优化。起初,改进Lara的过程异常艰难。她时常出现混乱,在地图中漫无目的地游荡,甚至卡在菜单界面,反复盯着指南针。为了解决这一问题,作者在一台虚拟机上加速了游戏进程40倍,最终AI智能体在合理时间内完成了教程。然而,新的挑战随之而来:Lara经常卡在同一位置,因为每个关卡都是静态元素堆砌,只有一条固定路径。这导致她只知道避开哪些路线,却无法灵活解题。Foxmaster希望Lara能够自主探索,而非机械式地执行指令。他观察到,人类玩家在游戏中的行为差异源于不同的「个性」——有人会先完成教程再探索,有人则边学边玩。Lara需要学习的就是这种态度。
为了让AI建立与Lara的联系,必须让AI明白自己是一堆像素。人类玩家进入游戏时,会瞬间产生这种意识。为此,作者录制了Lara朝不同方向活动的24小时视频,相当于自动驾驶汽车以每秒30帧的速度拍摄了2592000张参考图像,用于识别道路标志。作者首先追踪头部和身体的主要像素,选择相关区域。为了确保Lara在每张图像中都能被识别,程序被要求忽略那些不含突出特征的图片。当Lara占据整个屏幕,或被二维物体遮挡时,AI视觉捕获技术发挥了关键作用,识别精度极高。
识别Lara只是第一步,让AI与环境互动才是核心。整个游戏环境由相同区块组成,作者将其导入立方体模型,从多角度捕获环境图像,再运行识别程序。AI智能体通过这种方式,能够像人类玩家解释图像一样理解环境。红色突出显示的区域是未识别的纹理,但AI仍缺乏主动探索的意识,需要学会感知周围环境的距离。有趣的是,这些未识别区域通常位于远离Lara的位置,或被其他2D物体遮挡。人类玩家看到图像时,能立刻判断箭头所指区域是入口,即使不确定房间大小,也能感知到3D空间的特征。因此,AI智能体还需要学会移动并进行比较。通过多个图像对比,计算纹理尺寸变化最小的区域,可以确定主多边形面积,基于彼此间距离成比例的概率进行判断。
现在,AI已经能感知自身位置,但必须做出决策:下一步去哪里?通过识别纹理,AI可以到达特定位置,但在关卡中导航需要更简单的策略。最快的方法是简化对比度,识别光线突然变化的区域。但人类玩家不会盲目跟随这些线索。当出现多个开口时,AI需要表现出足够的兴趣,但不能轻易送命。比如,一个过深的洞可能需要借助壁架才能跳下,而下方有水则另当别论。人类玩家能准确判断跳跃时机,但Lara的行动仍受限于教程,必须精确计算方块数量、调整动量,并在放手前短暂停顿。为了鼓励AI收集更多信息,作者设定了规则:每次遇到新纹理时,必须以增加该纹理在屏幕上占比的方式移动,确保她在关卡中不断前进。因为每个关卡都有独特纹理,解锁的唯一方式就是探索。
Lara不断分析屏幕内容——不同表面的纹理,移动身体,定义新的兴趣点(即目录中尚未存在的纹理),并验证寻找缺失的纹理。然而,即使经过这些改进,AI的行动模式仍像机器人。为了改变这一状况,作者再次观察人类玩家的行为。人类玩家的行动受记忆驱动,会记住动作组合。因此,作者将AI每秒的动作保存下来,并添加规则允许同时执行这些动作,使AI动作更加流畅。同时,由于每个动作的冷却时间已知,可以防止AI在不必要时重复动作。例如,当火焰重新激活时,AI知道Lara需要在特定时机完成跳跃,就像人类玩家理解的那样。
接下来,为Lara注入个性。根据游戏设定,她是一位无畏的考古学家,热爱冒险,即使没有奖赏也愿意接受山区任务。她家境优渥,刚搬入装饰优雅的豪宅,拥有训练室,精通教学、游泳、攀爬,耐力惊人。面对危险,她沉着冷静,勇敢果断,能精准射击狼群,并用匕首击杀凶猛的狼。唯一拒绝的是主动开锁。作者从游戏设定中提取了这些个性特征,并编译成数据库。为了使评论更贴近现实,程序需要将游戏图像与现实事物关联。对于纹理细节较少的图像,通过谷歌逆向图像搜索进行匹配。当AI检测到足够大的纹理时,就会启动搜索。识别单词时,作者将整个页面复制到ChatGPT,要求其根据出现频率分类,再创建符合Lara个性的句子。比如,当识别到海狮时,ChatGPT会将海狮与Lara的勇敢、友好等特质联系起来,做出真实评论。Lara智能体的人格通过ChatGPT使用「勇敢」、「友好」等属性设定,在游戏中感知和评论所有物体时,都会经过这个人格过滤器,并由Lara根据既定性格做出反应。例如,面对海狮,Lara会提及海狮化石或游泳能力,而不会发表无关评论。
网友纷纷表示,这是让角色自我发展最酷、最自然的方式之一。当角色活灵活现,电子游戏才真正成为艺术品。「她说话和分析周围环境的方式非常可爱。让AI机器人有能力评论周围环境,无论它的实际水平如何,都会让人觉得她是个活生生的人。」「这太迷人了。她那超然的好奇心和一丝异想天开的想法,与我想象中的Lara的内心独白惊人地相似。」有人惊叹道,她的对话与行为高度一致,让人感觉写对话和控角色的AI是同一人。
前不久,斯坦福AI智能体小镇开源时,网友们就认为AGI已来,各种RPG和模拟类游戏将很快应用这种技术。而现在,Foxmaster将ChatGPT、计算机视觉和物体识别结合,让电子游戏变得更加有趣。或许在未来,电子游戏角色将被赋予更深、更灵活的个性,对环境做出更快的反应,以及无数我们无法想象的变化。