科学家们提出了一种由神经网络驱动的新型BCI

两年前,一名因脊髓损伤而瘫痪的64岁男子使用脑机接口(bci)实现了以每分钟8个单词的速度打字,这在当时是创纪录的。
加州大学旧金山分校(ucsf)的科学家们提出了一种由神经网络驱动的新型bci,可以让瘫痪或中风的人以自然语音的速度(平均每分钟150个单词)交流。他们的这一研究成果4月24日发表在了nature上,文章标题为“speech synthesis from neural decoding of spoken sentences”。
usfc研究团队发表在nature上的论文
该技术通过一个独特的两步过程运作:首先,它将大脑信号转换成声道(包括下颌、喉部、嘴唇和舌头)的运动。之后,它将这些运动合成为语音。该系统需要一个直接放置在大脑上的手掌大小的电极阵列。论文作者说,该系统概念验证了从脑活动中重建自然语音是可能的。
加州大学旧金山分校的研究人员使用了与上图中的电极阵列类似的一个颅内电极阵列来记录参与这项新研究的受试者的大脑活动。照片来源:ucsf。
在关于该研究的一则新闻报道中,ucsf神经外科医生、这项研究的负责人edward chang表示,许多研究都聚焦在从脑活动中解码声音或完整单词,但解码思想“非常困难” 。“我们很明确地尝试解码动作以创建声音,而不是直接解码声音。”
美国西北大学神经修复实验室的负责人marc slutzky(他并未参与该研究)说:“对于如何从脑信号中直接解码语音,这是一项设计精美、执行良好的研究。”
然而,将这项技术转化为临床实践将是一个挑战,slutzky补充说:“目前,fda批准的设备中还没有哪种使用他们在高通道能力情形下使用的电极类型(他们在这里使用了256个通道),所以这仍然是一个障碍。但我相信这最终会被克服。”
有很多研究在应用神经网络——松散地模拟人脑的一套算法,常用于深度学习——来解释脑活动“发出”的声音,chang的论文是这一系列努力中的最新成果。今年早些时候,两个独立的团队——西北大学的slutzky实验室和哥伦比亚大学的nima mesgarani实验室——分别在journal of neural engineering和scientific reports上发表了论文,他们都使用神经网络来从感觉网络的脑活动中重建语音。chang的研究与这两项研究的不同之处在于,它分析的是运动皮层的脑活动。
西北大学slutzky实验室发表在journal of neural engineering上的论文
哥伦比亚大学nima mesgarani实验室发表在scientific reports上的论文
mesgarani告诉ieee spectrum说:“最终哪种方法能更好地解码想象中的言谈情况,还有待观察,但很可能将两者结合起来的方法是最好的。”
包括chang的研究在内的最近的各项研究都依赖于通过手术在大脑中或大脑上放置电极。虽然facebook声称它正在开发一种能够每分钟从用户的大脑中读出100个单词的非侵入性技术,但它还没有发布支持这一说法的研究成果。专家们同意,外部电极无法从小脑区提供足够精确的数据。专家们一致认为,外部电极无法提供来自脑部小区域的足够精确的数据。braingate联盟在2017年发表了那项关于瘫痪男子利用bci实现每分钟打字8个单词的研究,最近它还发表了一篇关于瘫痪者利用bci以“意念”操控平板电脑的论文,也都是依赖于植入大脑的芯片的。
在chang及其同事们的研究中,他们在5名接受癫痫治疗的受试者的言语运动皮层植入了电极阵列,然后从这些电极阵列收集数据。研究人员记录了患者大声说出几百句话时的大脑信号。这些句子包括“这个跷跷板安全吗?”和“在第十二天黄昏时,我们会喝夏布利酒”等,它们是被特别挑选出来,囊括了英语的所有音标。
接下来,研究人员使用一个神经网络将这些高分辨率的脑信号解码成声道运动——本质上是将脑电波转换成能够产生声音的物理运动模型,比如嘴唇、舌头或下颌的运动。这项研究基于该团队去年发表在neuron期刊上的一个模型。
chang的团队去年发表在neuron上的论文
最后,他们使用第二个神经网络将这些声道运动的数字化表示合成为音频信号,并让志愿者倾听。在对101个句子的试验中,听者可以在单词库的帮助下很好地识别和写出听到的合成语音:句子中单词来自25个单词的词汇池时,43%的句子被完美地写了出来;句子中单词来自50个单词的词汇池时,21%的句子被完美地写了出来。总的来说,大约70%的单词被正确地写了出来。chang说,下一步的研究包括使音频更加自然和易懂。
这项研究还有一个有趣的发现,一名受试者被要求在不发出声音的情况下用其声道做相同的发音动作。bci能够从这些发音动作中合成出可理解的语音,这表明该系统可以应用于不能发出声音的人。
解码出来的声道运动在人与人之间大同小异,这表明有可能创建出一种可在不同的人之间共享的“通用”解码器。chang说:“模仿一个人声音的人造声道可以被用来从另一个人的脑活动中合成语音。”
这项研究的一个主要局限是,其受试者都是没有语言障碍的人。chang说,未来,该团队希望对不能说话的患者进行临床试验。

华为MateBook 13主打轻薄便携整机最厚处仅为14.9mm重量约为1.3kg
烟台消防利用无人机提升火灾防控能力
低功耗ADC驱动器ADA4939的性能特点及应用范围
锂电池生产流程图
东芝芯片业务出售,富士康拿下这块香饽饽谁就能进步“100”年?
科学家们提出了一种由神经网络驱动的新型BCI
PCB和PCBA有何区别,如何测试PCBA?
神经拟态视觉技术助力手机影像质量突破新高
高端医美护肤首选品牌,UGS优肌诗美容仪备受爱美女性青睐
中央人民政府官网和新华社同步报道深圳文博会创新技术
LDO电路的基本原理 介绍三种使用分立元件搭建的LDO
德力西电气荣获“影响力光伏零部件及电气配套品牌”大奖
STM32关全局中断的方法 STM32中断类型
一项工控网络安全技术案例解析
无功补偿在什么情况下需要增设电容补偿
微软最新发布Windows 10 21H1 硬件兼容计划
数据时代,如何重新定义NAS的灵活性?
科锐将帮助意法半导体在全球范围内提供SiC功率器件的需求
航天冰箱科普:七入太空的海尔智慧
基于MSP430F149单片机的烟草干燥温度控制设计