加利福尼亚大学旧金山分校的一项新研究使瘫痪的人能够通过将他的大脑信号转换为计算机生成的文字进行交流。这项发表在 《新英格兰医学杂志》上的研究标志着恢复失去说话能力的人的交流的一个重要里程碑。
“据我们所知,这是从瘫痪不能说话的人的大脑活动中直接解码完整单词的第一次成功示范,”资深作者、加州大学旧金山分校神经外科的琼和桑福德威尔主席爱德华·张说。新闻稿。“它显示出通过利用大脑的自然语言机制来恢复交流的强大前景。”
一些有语言限制的人使用辅助设备(例如触摸屏、键盘或语音生成计算机)进行通信。然而,每年都有数千人因瘫痪或脑损伤而失去语言能力,使他们无法使用辅助技术。
参与者在 2003 年失去了说话能力,因车祸后脑中风瘫痪。研究人员不确定他的大脑是否保留了与语言相关的神经活动。为了跟踪他的大脑信号,一个由电极组成的神经假体装置被放置在大脑的左侧,横跨几个以语音处理而闻名的区域。
在大约四个月的时间里,该团队开始了 50 次培训课程,参与者被提示说出单个单词、组成句子或回答显示屏上的问题。在响应提示的同时,电极设备捕获神经活动并将信息传输到带有定制软件的计算机。
“我们的模型需要学习复杂的大脑活动模式和预期语音之间的映射。当参与者无法说话时,这构成了一项重大挑战,”Chang 实验室的博士后工程师、该研究的主要作者之一大卫摩西在一份新闻稿中说。
为了解码他大脑活动的反应,该团队创建了语音检测和单词分类模型。研究人员使用cuDNN 加速的TensorFlow 框架和 32 个NVIDIA V100 Tensor Core GPU 训练、微调和评估模型。
“利用神经网络对于获得我们所做的分类和检测性能至关重要,我们的最终产品是大量实验的结果,”研究共同负责人 Sean Metzger 说。“因为我们的数据集在不断发展和增长,所以能够适应我们使用的模型至关重要。GPU 帮助我们进行更改、监控进度并了解我们的数据集。”
该模型以高达 93% 的准确率和 75% 的中位数速度解码参与者单词,速度高达每分钟 18 个。
“我们想要达到 1,000 个单词,最终是所有单词。这只是起点,”张说。
该研究建立在Chang 和他的同事之前的工作之上,他们开发了一种深度学习方法来解码和转换大脑信号。与当前的工作不同,先前研究的参与者能够说话。