脑信号实时转语音,不开口也能说话了?

本文来自微信公众号:原理 (ID:principia1687),作者:糖兽,原文标题:《首次实现脑信号实时转为语音》,题图来自:AI生成

说话是人类的一项基本能力。对于那些患有神经系统疾病或遭受神经损伤的人来说,失去说话能力是极其沉重的打击。

脑机接口(BCI)技术被认为是恢复语言能力的富有前景的手段。它通过解码脑活动,绕过神经系统中受损的部分,来帮助患者恢复语言能力。

当前大多数脑机接口系统的研究聚焦在将脑信号转化为文字,并显示在屏幕上。虽然这种方法准确率高,也有助于基本交流,但仅靠文字输出仍存在对话延迟的问题,也难以还原语调等语言细节,无法真正替代自然说话。

在一项新发表于《自然》杂志的研究中,一个研究团队展示了一种新型脑机接口系统。他们在一名患有严重构音障碍的患者脑中植入了四组微电极阵列,用以记录神经活动。系统对这些信号进行解码,实现了语音的即时合成。

一组安装于大脑表面的微电极阵列,用于实时记录神经信号。(图/UC Davis)

解码脑信号

这项研究的参与者是一名45岁的男性,他因肌萎缩性侧索硬化(ALS)而逐渐失去了清晰说话的能力。ALS是一种会损害运动神经元的神经系统疾病,会影响控制肌肉运动的神经,包括发声所需的肌群。虽然他仍能发声并缓慢说话,但语速极慢且发音含糊。

在他的症状出现五年后,他接受了植入手术:研究人员在其控制运动的脑区插入了256个硅电极,每个1.5毫米长。接下来,研究人员利用深度学习算法训练系统,让其每10毫秒采集一次他的脑信号(神经元活动),并将这些信号传输至计算机系统进行解码与语音合成。

一种研究性脑机接口设备,使研究参与者能够通过计算机进行交流。(图/UC Davis)

与以往的许多系统不同,新系统实时解码的是这名患者试图发出的声音,而非他想要表达的单词或音素(构成单词的语音亚单位)。换言之,新系统想要直接还原语音本身。

更丰富的语音输出

人类并不总是通过标准词汇表达所想,还会使用如感叹词、非语言声音等不属于固定词汇表的词来表达声音。为了实现这种开放式表达,新研究采用了完全不设限制的解码方式。研究人员让参与者尝试发出“啊”“哦”“嗯”等感叹词,甚至是虚构的词,并通过调节语调表达疑问、强调重点。这意味着,新系统不仅能合成固定词汇表中的词语,还可以用脑信号“唱出”简短旋律,实现音高控制

团队还根据患者发病前的访谈录音来训练AI模型,成功合成出个性化的声音,使其听起来像患者本人的声音。

实验结果表明,新的脑机接口系统能够以1/40秒的延迟将神经信号转化为语音输出。这一延时接近人类自然说话时听到自己声音的时间差。而且,患者利用这一系统合成的语音基本是可理解的:在测试中,听众平均能正确识别出近60%的单词,而患者在未使用脑机接口系统时,语音识别率仅为4%。

在进一步实验中,研究团队发现新系统能识别出患者是想表达疑问句还是陈述句,并据此自动调整语调。它还能判断他在句中强调了哪个词,并在语音中体现出来。

这样的结果意味着,新系统帮助患者真正实现了一个几乎没有可察觉延迟的、“脑到声音”的数字声道,可以在他试图说话的瞬间,就将其脑活动直接转化为语音了。

临床试验的希望

这项研究给那些想说话却无法发声的人带来了新的希望,这项技术有望彻底改变他们的交流方式。这是一种范式的转变,为现实生活中的语言辅助工具铺平了道路。

不过,研究团队也指出,目前这种“神经语音假体”仍处于早期阶段。由于这次研究只在一名ALS患者身上完成,下一步的关键将在于能否在更多患者中实现类似效果,比如那些因中风等其他原因而失语的人群。

参考来源:

(网址)

(网址)

本文来自微信公众号:原理 (ID:principia1687),作者:糖兽