中风瘫痪18年 AI赋能脑机接口让她重获「开口说话」能力

2023-08-27 09:06:31 互联网 62 次阅读

声明：本文源自微信公众号新智元（ID:AI_era），作者新智元，经微新创想授权转载发布。

【新智元导读】中风后失语18年的Ann，竟因脑机接口和数字化身技术，重新用面部表情“说话”。同一天，Nature杂志同时发布两篇脑机接口重磅研究，或将彻底改变人类未来！

30岁那年，一场突如其来的中风让47岁的加拿大女性Ann几乎完全瘫痪，失语症伴随她18年。幸运的是，加州大学团队研发的新型脑机接口（BCI），让Ann通过控制“数字化身”再次开口说话。“I think you are wonderful”，这句话的诞生，对Ann而言，跨越了漫长的十多年时光。

值得注意的是，该数字化身面部表情的实现技术，与知名游戏《最后生还者2》如出一辙。具体而言，研究人员在Ann大脑表层下方植入一系列电极，当Ann尝试说话时，BCI系统会捕捉大脑信号并将其转化为单词、语音。这里的关键在于，AI并非解码完整单词，而是专注于解码音素——语音的基本构成单元。加州大学的BCI技术实现了每分钟78个单词的说话速度，远超Ann曾使用设备每分钟14个单词的效率。正如论文标题所示，研究核心在于“语音解码”和“数字化身控制”，这也是与以往研究最大的突破。

全新BCI技术通过面部表情，为数字化身制作动画，精准模仿人类自然交流的细节。这项突破性研究于8月23日发表于Nature，首次实现了直接从大脑信号合成语音和面部动作，标志着脑机接口技术的重大飞跃。另一篇同日发表的Nature研究，同样聚焦于将语音神经活动转化为文字的脑际接口，结果显示瘫痪患者可达到每分钟62个字的交流速度，较以往研究提升3.4倍。

两项重磅研究均大幅提升了语音大脑信号转成文本的速度，甚至让虚拟化身成为人类的“嘴替”。这一创世性的脑机接口技术，让人类距离“机械飞升”更近一步。

三十而立，人生总有惊喜等待开启。对于Ann来说，作为加拿大一名高中数学老师，她曾站在讲台上教书育人，桃李满天下。然而，一场中风夺走了她对身体所有肌肉的控制，甚至无法呼吸，从此再无言语。脑中风最直接的后果是面瘫，导致无法说话。在接下来的五年里，Ann辗转难眠，恐惧自己会在睡梦中死去。尽管经过多年物理治疗取得初步进展，她仍无法驱动面部肌肉说话，为此也接受了脑机接口手术。但以往的BCI技术不够先进，只能让Ann进行缓慢艰难的交流。

2022年，Ann决定再次尝试，成为加州大学研究团队的受试者。研究人员记录了Ann试图背诵单词时的大脑信号模式，训练AI算法识别语音信号。关键在于，训练的AI专注于解码音素而非整个单词，使速度和通用性提升3倍。研究小组在Ann大脑表面植入一个由253个电极组成的薄如纸片的矩形电极，通过电缆连接到计算机，将Ann的尝试语音转录成文本，速度接近每分钟80个单词。此外，研究团队利用Ann2005年婚礼录像重建其独特语调和口音，并借助Speech Graphics公司软件创建个性化数字化身，实时模拟Ann的面部表情。当Ann尝试说话时，数字化身会无缝制作动画，说出她想说的话。

这项技术借鉴了《最后生还者2》等游戏的面部捕捉技术，由Speech Graphics的首席技术官兼联合创始人Michael Berger表示：“创建一个能实时说话、表情和表达的数字化身，并直接与受试者的大脑相连，显示了AI驱动面部的潜力远超视频游戏。仅恢复说话就已令人惊叹，而面部交流是人类固有特性，让患者重获这一非凡能力。”

加州大学的这项研究不仅是BCI技术的突破，更是无数特殊人士的希望。它让个人实现独立，让自我表达触手可及，为Ann和无数因瘫痪失去语言能力的人带去前所未有的希望。对于Ann如今13个月大的女儿来说，BCI突破让她听到了母亲诞生以来从未聆听过的声音。

据悉，研究团队正在开发无线BCI版本，以摆脱物理连接的束缚。实验领导者Edward Chang博士已用十多年时间推进脑机接口技术。2021年，他和团队开发的“语言神经科技辅具”让一名严重瘫痪男子能用完整句子交流，首次证明语音-大脑信号可被解码为完整单词。

那么，加州大学让Ann“开口说话”的技术究竟如何实现？

研究团队由加州大学旧金山分校神经外科主任Edward Chang博士领导，将253针电极阵列植入Ann的大脑语言控制区。这些探头监测并捕获神经信号，通过头骨中的电缆端口传输到处理器，其中包含机器学习AI。几周内，Ann与团队训练AI算法识别她大脑中1000多个单词的神经信号模式。通过反复重复1024个单词的会话词汇，计算机识别出与基本语音相关的大脑活动模式。

研究人员并未训练AI识别整个单词，而是创建了一个从音素解码单词的系统。音素是形成口语的语音亚单元，例如“Hello”包含“HH”、“AH”、“L”和“OW”四个音素。计算机只需学习39个音素即可破译英语中的任何单词，既提高了准确性，又使速度提升3倍。

重头戏在于AI对Ann意图的解码和映射。电极被放置在大脑语言关键区域，研究小组发现这些区域对发音至关重要。通过深度学习模型，将检测到的神经信号映射到语音单元、语音特征，以输出文本、合成语音和驱动虚拟人物。研究人员与Speech Graphics合作制作了Ann的虚拟形象，该技术根据音频输入分析“逆向设计”面部肌肉骨骼动作，实时输入游戏引擎，制作无延迟的形象。由于精神信号直接映射到化身，Ann也能表达情感，甚至进行非语言交流。

研究人员设计了一个多模态语音解码系统，帮助Ann重新进行沟通交流。她与团队训练AI算法识别与音素相关的大脑信号。研究小组在Ann大脑皮层植入高密度ECoG阵列，覆盖与语言相关的大脑皮层区域，包括SMC和颞上回，这些区域与面部、嘴唇、舌头和下巴动作有关。通过阵列，研究人员可检测到Ann尝试移动这些部位时的电信号。

为了解码语言，研究人员让Ann在看到屏幕句子后尝试无声地说出，即做出发音动作。从253个ECoG电极捕获的信号中，提取了高伽玛活动（70-150赫兹）和低频信号（0.3-17赫兹）两种主要大脑活动信号。随后，使用深度学习模型预测发音、语音和口腔动作，最终转化为文本、合成语音和虚拟化身动作。

文本解码方面，研究团队希望从大脑中解码文本，特别是在发音困难者尝试说话时。早期研究受限于解码速度慢和词汇量小，本研究采用“电话解码”方法，实现接近自然说话的速度。当Ann默读249个随机句子时，解码速度达到78.3WPM，超过她以往设备的速度。

语音合成方面，研究人员将神经活动直接转化为可听见的语音，为无法说话者提供更自然的交流途径。通过双向循环神经网络（RNN）预测每个时间步骤的100个离散语音单元的概率，并使用HuBERT模型将语音波形编码为离散语音单元序列。最终，将预测单元传入预先训练的单元到语音模型，实时合成为语音波形。离线情况下，使用语音转换模型将解码语音处理成Ann个性化的合成声音。

面部头像解码方面，研究团队开发了面部化身BCI界面，将神经活动解码成发音的语音手势，并在视听任务条件下呈现动态虚拟面部。采用直接方法和声学方法为头像制作动画，确保解码语音音频和头像动作的低延迟同步。此外，Ann还能通过BCI控制头像显示发音动作和情感表达，展现了多模态通信的潜力。

发音表征驱动解码方面，研究团队发现健康说话者中SMC（前中央回和后中央回）的神经表征编码了口面肌肉的发音动作。将电极阵列植入SMC中心后，推测即使瘫痪后，发音的神经表示仍存在，并推动了语音解码性能。通过线性时间感受场编码模型，预测每个电极的HGA，并计算每个音素的最大编码权重，得到音位调谐空间，每个电极都与特定音素编码权重向量相关。

参考资料：https://www.ucsf.edu/news/2023/08/425986/how-artificial-intelligence-gave-paralyzed-woman-her-voice-back