声明:本文源自微信公众号新智元(ID:AI_era),作者新智元,经微新创想授权转载发布。

【新智元导读】中风后失语18年的Ann,竟因脑机接口和数字化身技术,重新用面部表情“说话”。同一天,Nature杂志同时发布两篇脑机接口重磅研究,或将彻底改变人类未来!

30岁那年,一场突如其来的中风让47岁的加拿大女性Ann几乎完全瘫痪,失语症伴随她18年。幸运的是,加州大学团队研发的新型脑机接口(BCI),让Ann通过控制“数字化身”再次开口说话。“I think you are wonderful”,这句话的诞生,对Ann而言,跨越了漫长的十多年时光。

值得注意的是,该数字化身面部表情的实现技术,与知名游戏《最后生还者2》如出一辙。具体而言,研究人员在Ann大脑表层下方植入一系列电极,当Ann尝试说话时,BCI系统会捕捉大脑信号并将其转化为单词、语音。这里的关键在于,AI并非解码完整单词,而是专注于解码音素——语音的基本构成单元。加州大学的BCI技术实现了每分钟78个单词的说话速度,远超Ann曾使用设备每分钟14个单词的效率。正如论文标题所示,研究核心在于“语音解码”和“数字化身控制”,这也是与以往研究最大的突破。

全新BCI技术通过面部表情,为数字化身制作动画,精准模仿人类自然交流的细节。这项突破性研究于8月23日发表于Nature,首次实现了直接从大脑信号合成语音和面部动作,标志着脑机接口技术的重大飞跃。另一篇同日发表的Nature研究,同样聚焦于将语音神经活动转化为文字的脑际接口,结果显示瘫痪患者可达到每分钟62个字的交流速度,较以往研究提升3.4倍。

两项重磅研究均大幅提升了语音大脑信号转成文本的速度,甚至让虚拟化身成为人类的“嘴替”。这一创世性的脑机接口技术,让人类距离“机械飞升”更近一步。

三十而立,人生总有惊喜等待开启。对于Ann来说,作为加拿大一名高中数学老师,她曾站在讲台上教书育人,桃李满天下。然而,一场中风夺走了她对身体所有肌肉的控制,甚至无法呼吸,从此再无言语。脑中风最直接的后果是面瘫,导致无法说话。在接下来的五年里,Ann辗转难眠,恐惧自己会在睡梦中死去。尽管经过多年物理治疗取得初步进展,她仍无法驱动面部肌肉说话,为此也接受了脑机接口手术。但以往的BCI技术不够先进,只能让Ann进行缓慢艰难的交流。

2022年,Ann决定再次尝试,成为加州大学研究团队的受试者。研究人员记录了Ann试图背诵单词时的大脑信号模式,训练AI算法识别语音信号。关键在于,训练的AI专注于解码音素而非整个单词,使速度和通用性提升3倍。研究小组在Ann大脑表面植入一个由253个电极组成的薄如纸片的矩形电极,通过电缆连接到计算机,将Ann的尝试语音转录成文本,速度接近每分钟80个单词。此外,研究团队利用Ann2005年婚礼录像重建其独特语调和口音,并借助Speech Graphics公司软件创建个性化数字化身,实时模拟Ann的面部表情。当Ann尝试说话时,数字化身会无缝制作动画,说出她想说的话。

这项技术借鉴了《最后生还者2》等游戏的面部捕捉技术,由Speech Graphics的首席技术官兼联合创始人Michael Berger表示:“创建一个能实时说话、表情和表达的数字化身,并直接与受试者的大脑相连,显示了AI驱动面部的潜力远超视频游戏。仅恢复说话就已令人惊叹,而面部交流是人类固有特性,让患者重获这一非凡能力。”

加州大学的这项研究不仅是BCI技术的突破,更是无数特殊人士的希望。它让个人实现独立,让自我表达触手可及,为Ann和无数因瘫痪失去语言能力的人带去前所未有的希望。对于Ann如今13个月大的女儿来说,BCI突破让她听到了母亲诞生以来从未聆听过的声音。

据悉,研究团队正在开发无线BCI版本,以摆脱物理连接的束缚。实验领导者Edward Chang博士已用十多年时间推进脑机接口技术。2021年,他和团队开发的“语言神经科技辅具”让一名严重瘫痪男子能用完整句子交流,首次证明语音-大脑信号可被解码为完整单词。

那么,加州大学让Ann“开口说话”的技术究竟如何实现?

研究团队由加州大学旧金山分校神经外科主任Edward Chang博士领导,将253针电极阵列植入Ann的大脑语言控制区。这些探头监测并捕获神经信号,通过头骨中的电缆端口传输到处理器,其中包含机器学习AI。几周内,Ann与团队训练AI算法识别她大脑中1000多个单词的神经信号模式。通过反复重复1024个单词的会话词汇,计算机识别出与基本语音相关的大脑活动模式。

研究人员并未训练AI识别整个单词,而是创建了一个从音素解码单词的系统。音素是形成口语的语音亚单元,例如“Hello”包含“HH”、“AH”、“L”和“OW”四个音素。计算机只需学习39个音素即可破译英语中的任何单词,既提高了准确性,又使速度提升3倍。

重头戏在于AI对Ann意图的解码和映射。电极被放置在大脑语言关键区域,研究小组发现这些区域对发音至关重要。通过深度学习模型,将检测到的神经信号映射到语音单元、语音特征,以输出文本、合成语音和驱动虚拟人物。研究人员与Speech Graphics合作制作了Ann的虚拟形象,该技术根据音频输入分析“逆向设计”面部肌肉骨骼动作,实时输入游戏引擎,制作无延迟的形象。由于精神信号直接映射到化身,Ann也能表达情感,甚至进行非语言交流。

研究人员设计了一个多模态语音解码系统,帮助Ann重新进行沟通交流。她与团队训练AI算法识别与音素相关的大脑信号。研究小组在Ann大脑皮层植入高密度ECoG阵列,覆盖与语言相关的大脑皮层区域,包括SMC和颞上回,这些区域与面部、嘴唇、舌头和下巴动作有关。通过阵列,研究人员可检测到Ann尝试移动这些部位时的电信号。

为了解码语言,研究人员让Ann在看到屏幕句子后尝试无声地说出,即做出发音动作。从253个ECoG电极捕获的信号中,提取了高伽玛活动(70-150赫兹)和低频信号(0.3-17赫兹)两种主要大脑活动信号。随后,使用深度学习模型预测发音、语音和口腔动作,最终转化为文本、合成语音和虚拟化身动作。

文本解码方面,研究团队希望从大脑中解码文本,特别是在发音困难者尝试说话时。早期研究受限于解码速度慢和词汇量小,本研究采用“电话解码”方法,实现接近自然说话的速度。当Ann默读249个随机句子时,解码速度达到78.3WPM,超过她以往设备的速度。

语音合成方面,研究人员将神经活动直接转化为可听见的语音,为无法说话者提供更自然的交流途径。通过双向循环神经网络(RNN)预测每个时间步骤的100个离散语音单元的概率,并使用HuBERT模型将语音波形编码为离散语音单元序列。最终,将预测单元传入预先训练的单元到语音模型,实时合成为语音波形。离线情况下,使用语音转换模型将解码语音处理成Ann个性化的合成声音。

面部头像解码方面,研究团队开发了面部化身BCI界面,将神经活动解码成发音的语音手势,并在视听任务条件下呈现动态虚拟面部。采用直接方法和声学方法为头像制作动画,确保解码语音音频和头像动作的低延迟同步。此外,Ann还能通过BCI控制头像显示发音动作和情感表达,展现了多模态通信的潜力。

发音表征驱动解码方面,研究团队发现健康说话者中SMC(前中央回和后中央回)的神经表征编码了口面肌肉的发音动作。将电极阵列植入SMC中心后,推测即使瘫痪后,发音的神经表示仍存在,并推动了语音解码性能。通过线性时间感受场编码模型,预测每个电极的HGA,并计算每个音素的最大编码权重,得到音位调谐空间,每个电极都与特定音素编码权重向量相关。

参考资料:https://www.ucsf.edu/news/2023/08/425986/how-artificial-intelligence-gave-paralyzed-woman-her-voice-back

最新快讯

2025年06月28日

12:28
远方好物凭借其领先的平台技术实力与强大的供应链体系,巧妙地将自身优势与微信生态深度融合,成功打造了一个独具特色的健康安全食品销售平台。通过精准整合各地域的特色健康食品资源,远方好物利用微信社交平台的强大传播力,构建起一个高效的信息传递网络。目前,平台已拥有20万核心会员与300万忠实消费者,他们不仅是产品的购买者,更是品牌理念的传播者与口碑的缔造者。 作为一...

2025年06月16日

18:13
由AI驱动开发的创新在线工具——鼓狮工具箱,为用户提供全方位智能解决方案。该平台集合了多种实用功能,涵盖日常办公、学习研究及生活管理等多个领域,通过先进的人工智能技术实现高效便捷的操作体验 核心功能模块包括: 简繁转换工具:https://tools.gushiio.com/jianfan 支持快速准确的中英文简繁体互转,特别适合需要跨语言交流的用户 汉字转...

2025年06月15日

11:16
由AI驱动开发的创新在线工具——鼓狮工具箱,为用户提供全方位智能解决方案。该平台集合了多种实用功能,涵盖日常办公、学习研究及生活管理等多个领域,通过先进的人工智能技术实现高效便捷的操作体验 核心功能模块包括: 简繁转换工具:https://tools.gushiio.com/jianfan 支持简体中文与繁体中文之间无缝切换,适用于各类文档处理与内容创作场景...

2023年11月01日

08:09
10月30日,备受瞩目的"2023新一代人工智能(深圳)创业大赛"在深圳市宝安区隆重拉开帷幕。这场由深圳市互联网信息办公室、宝安区人民政府联合主办,网易传媒鼎力支持的行业盛会,标志着深圳在人工智能领域的发展迈入全新阶段。 深圳市委宣传部副部长、市委网信办主任、市委互联网企业工委书记王楚宏在启动仪式上强调,深圳正以战略眼光抢抓人工智能科技革命机遇,致力于推动A...
08:09
歌尔股份控股子公司歌尔光学科技有限公司正式宣布,将以现金支付与股份支付相结合的方式,全资收购其参股企业驭光科技(绍兴)有限公司100%股权。此次交易总金额约7.95亿元人民币,具体分为两部分:一是歌尔光学以自有资金约7.95亿元收购驭光科技62.812%股权,其中包含公司持有的10.526%股权及关联方持有的0.818%股权;二是通过定向增资扩股方式,占目前...
08:09
编者按:本文来自微信公众号 游戏葡萄(ID:youxiputao),作者:修理,微新创想经授权转载。 01 决赛差点掀翻中国,蒙古为什么能成黑马? 10月8日,杭州亚运会正式闭幕了。电子竞技项目首次纳入亚运会正式比赛项目,可谓备受行业内外关注,线下观赛一票难求。尤其是DOTA2决赛中国对阵蒙古,成为本次亚运会热度最高的几场比赛之一。三局比赛每场打得都异常激烈...
08:09
今年8月13日,钉钉总裁叶军向阿里集团内部宣布了一项重大战略调整——钉钉将脱离阿里云的分管体系,正式成为集团旗下独立运营的“N”公司。这一决策标志着钉钉进入全新的发展阶段,作为阿里集团的重要创新业务,将获得更广阔的自主空间和资源支持。事实上,钉钉的成长历程正是阿里巴巴创新战略的生动实践。 2014年1月,钉钉应运而生,其前身可追溯至阿里内部社交软件“来往”。...
08:09
编者按:本文来自微信公众号白鲸出海(ID:baijingapp),作者白鲸小编,经微新创想授权转载。本文将深入探讨一个极具潜力的社交垂类赛道——穆斯林交友,这一领域或许比许多小众领域更小众,却蕴藏着巨大的市场机遇。根据皮尤研究中心的统计数据,全球穆斯林人口已超过18亿,占全球总人口的23%。伊斯兰教法虽鼓励跨宗教婚姻,但限制穆斯林女性与非穆斯林男性结合。尽管...
08:09
编者按:本文源自微信公众号新消费内参(ID:cychuangye),作者乐乐,经微新创想授权转载。曾经引领新中式奶茶潮流的茶颜悦色,近来却频频陷入负面漩涡。短短一两年间,从员工吐槽薪资遭创始人怒怼,到新品名称被指侮辱女性,再到门店“罚站式”排队引发争议,甚至“努力努力白努力”的推文点燃学生和打工人群的怒火……创始人态度、品牌组织、门店运营、营销策略等短板逐一...
08:09
编者按:本文源自微信公众号DoNews(ID:ilovedonews),作者曹双涛,经微新创想授权转载。近日,广汽集团发布公告宣布,董事会已审议通过《关于广汽三菱重组的关联交易公告》,计划对广汽三菱及其汽车销售公司实施股权调整等重组措施。广汽集团将以1元对价受让三菱自动车工业株式会社与三菱商事株式会社持有的广汽三菱30%和20%股权,使广汽三菱成为广汽集团的...
08:09
烘焙行业正面临一场前所未有的涨价风暴,中产消费者纷纷抱怨面包价格居高不下。近期,小红书平台上涌现大量关于烘焙产品高价的讨论,网友晒出北京、上海、长沙、泉州等地多家烘焙品牌的商品价格,其中北京某品牌脏脏包29元、蓝莓巴斯克芝士蛋糕69元;上海某品牌焦糖牛角酥24元、黑松露双重芝士法包88元;长沙某品牌紫苏杏干夏巴塔18元、开心果布雷斯特车轮泡芙38元;泉州某品...
08:09
茶的味道始终如一,而消费者的心态与口味却发生了翻天覆地的变化。不久前,我有幸结识了一位饮料经销商大哥,在探讨食品饮料行业时,我提及了近期哪些品牌走红、哪些新品备受关注。大哥却一针见血地指出,那些在网上大肆宣传的品牌不过是昙花一现的虚火,他所在地区一年的销量加起来也不过二十箱货。他告诉我,真正火热的饮料只有一个——东方树叶,其他品牌都是货找人,唯有东方树叶是人...