人工智能从大脑“读出”语言

责任编辑：zsheng |来源：企业网D1Net 2019-01-09 13:09:10 本文摘自：中国科学报

对于许多瘫痪且无法说话的人来说，他们想要表达的语音信号隐藏在大脑中。但没有人能够直接破译这些信号。

不过，最近有3个研究小组在将植入大脑的电极数据转化为计算机生成的语音方面取得了进展，他们通过被称为神经网络的计算模型，重建了可以被人类听众理解的单词和句子。

最近几个月以来，正如在bioRxiv上发布的多篇论文描述的那样，研究人员仍无法完全重建仅仅存在于人们大脑里的语音信息。但另一方面，研究人员在人们大声朗读、轻声细语，或者听录音的时候，监视了大脑的部分活动。

未参与该研究的瑞士日内瓦大学神经工程师Stephanie Martin表示，重新演绎人们脑海中的语音信息这一做法“令人兴奋不已”。

中风或疾病后失去说话能力的人可以用眼睛或其他小动作控制光标或选择屏幕上的字母。但如果大脑—计算机界面能够直接重建语言，他们可能会重新获得更多，例如，控制语调或者在节奏较快的对话中插话。

但将这一想法付诸实践却困难重重。“我们试图找出在不同时间点打开和关闭的神经元模式，以此推断语言信息。”美国哥伦比亚大学计算机科学家Nima Mesgarani说，“从一个映射到另一个映射的过程非常复杂。”

这些信号转换为语音的情况因人而异，因此必须对计算机模型“因材施教”。这些模型需要非常精确的数据支持，而这需要打开头骨。

研究人员只能在极少数情况下进行此类侵入性研究。一种是在切除脑瘤的过程中，暴露在外的大脑发出的电信号帮助外科医生定位并避开关键的语言和运动区域。另一种则是当癫痫患者植入电极以确定手术前癫痫发作的起因时。Mesgarani表示，在收集数据的过程中，“我们的操作时间最多只有20至30分钟，时间非常宝贵”。

研究人员通过将信息提供给神经网络获取了大部分宝贵数据，神经网络通过将信息传递到计算“节点”层处理复杂模式。神经网络也能通过调整节点之间的连接来学习。在实验中，神经网络接触了一个人发出或听到的语音记录以及同步的大脑活动的数据。

Mesgarani团队使用了5名癫痫患者的数据。该网络分析了听觉皮层(在语音和听力过程中都很活跃)在他们听到故事录音和人们从0读到9的录音后的记录活动。然后，计算机仅利用神经数据重建了录音中的数字。计算机“读出”人们脑海中数字的准确度高达75%。

德国不来梅大学神经科学家Miguel Angrick和荷兰马斯特里赫特大学神经科学家Christian Herff领导的另一个团队，则采用了6名接受脑肿瘤手术志愿者的数据。他们捕捉到这些患者朗读单音节词的声音，同时电极还记录下大脑的语音规划区域和运动区域活动。神经网络将电极读数映射到音频记录，然后根据先前的脑数据重建单词。根据计算机化的评分系统，大约40%的生成单词能够被理解。

最后，加州大学旧金山分校神经外科医生Edward Chang和他的团队重建了3名癫痫患者大声朗读时，在他们的语言和运动区域捕获的完整句子。在测试中，166人需要从10个书面语句中选择出一句他们听过的句子，识别句子的正确率达到了80%。

研究人员还进一步改善了模型：通过人们默读时记录的数据重建句子。Herff表示，这是一个重要的研究成果，“使得识别语音技术又进一步”。

然而，加州圣地亚哥州立大学研究语言生成的神经科学家StephanieRiès表示，“我们真正需要解决的问题是当患者不能说话时，以上这些方法的表现如何。”当一个人安静地“说话”或“听到”自己的声音时，大脑发出的信号与说话或听到的信号并不相同。如果没有与大脑活动相匹配的外部声音，计算机甚至可能很难分辨出内部语言的开始和结束。

纽约州卫生局国家适应神经技术中心神经工程师Gerwin Schalk表示，解码想象中的语音需要“一个巨大的飞跃，我们真的不清楚该怎么做”。

关键字：大脑智能