你听到的音乐在脑中是怎样的?这项研究把它录下来了!
音乐是生命体验中不可或缺的一部分。过去,人们想要表达音乐只能凭歌喉哼唱、靠乐器演奏;而如今,科学家已经能通过解码大脑来呈现脑中音乐——近期,加州大学伯克利分校(University of California, Berkeley,UC Berkeley)的科学家们成功地从脑电波中重建了大脑所听到的音乐。
这项成果来自UC Berkeley的Helen Wills神经科学实验室,于今年8月15日发表于Plos Biology杂志,天桥脑科学研究院(Tianqiao and Chrissy Chen Institute,TCCI)应用神经技术前沿实验室主任Gerwin Schalk教授也是研究者之一。此前,该团队已经成功通过脑电波重建脑内语音。而这次的研究更进了一步,音乐所包含的信息显然远远大于语音。正如研究团队成员介绍,“音乐本质上是充满情感和韵律的——它有节奏、重音、抑扬顿挫,包含了比任何语言中有限的音素更广泛的含义。”
(资料图片)
有趣的是,与使用古典音乐的传统方式不同,研究人员重建的音乐片段是来自英国摇滚乐队Pink Floyd发表于1979年的歌曲“Another Brick in the Wall, Part 1”。为什么团队选择了Pink Floyd的音乐、特别是这个片段呢?“在论文中,我们提到的科学原因是:这首歌非常具有层次感,它引入了复杂的和弦、不同的乐器和不同的节奏,使得分析变得有趣。”认知神经科学家、该研究的主要作者Ludovic Bellier说道。“不过,不太科学的原因是我们真的很喜欢Pink Floyd。”
这项研究共纳入了29名耐药性癫痫患者,他们均接受过颅内电极植入,以监测癫痫的发作。纳入本次研究的电极共2668个,每位患者36个到250个不等。研究人员为患者播放了“Another Brick in the Wall, Part 1”,让他们聆听这段音乐,此后利用人工智能对电极记录的信息进行解码、重建。
先来听听这惊人一致的原曲和脑电波重建曲吧!可以听到,虽然重建的音频有些模糊不清、仿佛“在水下说话”,但乐曲的走向、一些重音处的歌词如“the wall”以及节奏都是清晰可辨的。
注:将原始歌曲波形转换为仅有幅度的听觉频谱图,然后使用迭代相位估计算法将其转换回波形。
注:使用非线性模型对所有29名患者的347个重要电极进行反馈,重建歌曲节选。
哪些脑区记录了音乐?
为了确定哪些部位的电极记录了歌曲声学信息的编码,研究者利用人工智能对2379个无伪迹电极记录的脑波信息进行了谱时感受野(STRF)拟合,评估不同位置电极记录的神经元高频活动到底能够多准确地被歌曲的听觉频谱图预测:预测程度越好,则该位置的电极便与记录音乐越相关。
▷图1:响应电极的解剖位置
图1A表示所有电极的覆盖范围。图1B显示,347个电极具有显著的STRF拟合结果,位于左半球的有199个,右半球的有148个。这347个响应电极绝大多数(87%)集中在三个区域:68%位于双侧颞上沟(STG),14.4%位于双侧感觉运动皮层(SMC,位于中央前回和中央后回),4.6%位于双侧额下回(IFG)。图1C、D中,较深的颜色表示电极位于右半球,较浅的表示位于左半球;双因素ANOVA分析显示,两侧半球的对比有统计学意义,电极响应更加集中的区域均是右半球。
从脑海中重建歌曲需要多少信息?
科学家们从347个响应电极中随机抽取电极记录的数据,再利用人工智能解码其中信息、进行歌曲的重建。研究者发现,随机使用43个电极的数据即可达到最佳准确预测能力的80%;在单个患者上也类似,43个电极的信息已经可以进行解码,尽管解码的准确性较低;使用数据的持续时间与预测准确性之间也存在类似关系,例如,相比于使用完整的190.72秒的歌曲数据,使用69秒的数据即可以获得90%的重建准确性。
那么,放置电极的解剖位置对重建是否有影响呢?在移除不同解剖位对的电极信息后再解码,发现:
(1)相比其他脑区,双侧STG具有独特的音乐信息;
(2)相比左侧STG,右侧STG具有独特的信息;
(3)左侧STG的部分音乐信息在右侧STG存在冗余编码。
▷图2:不同音素的解码
不同解剖位置的电极在解码音乐时是否具有不一样的功能?确实如此。在对所有响应电极的独立成分分析后,结果如图2所示:
仅位于双侧后STG的“起始成分”,记录主音吉他或合成器的起始部分、及人声中音节核心的起始部分(图2B、C、D的第一行);位于双侧中、前STG以及双侧SMC的“持续成分”,记录歌曲的人声部分(图2B、C、D的第二行);位于双侧后、前STG,以及双侧SMC的“迟发型起始成分”,也与主音吉他或合成器的起始部分、及人声中音节核心相关,只是潜伏期更长(图2B、C、D的第三行);位于双侧中STG的“节奏成分”,记录歌曲中速度为99bpm、贯穿整个歌曲的节奏吉他中的16分音符(图2E)。
了解了大脑是如何“接收”与“理解”音乐信号后,再来看响应电极的功能成分对音乐重建又有哪些影响?在移除不同相关功能的响应电极后再解码,发现:
右侧起始电极相比左侧具有独特的信息;左侧起始电极的部分信息在右侧起始电极中存在冗余编码。对于迟发性起始电极也观察到类似现象。右侧节奏成分电极具有独特的信息,没有任何信息在左侧节奏电极中存在冗余编码。尽管持续电极数量很多,但移除它们的信息未发现任何影响。
不过,由于电极的功能成分存在一定重叠性,所以对它们功能重要性的解读没有解剖位置那么准确。
为什么关注大脑中重建的音乐?
或许有人会对这项研究的目的产生疑问,为何我们要去听大脑对外界声音的映射?
其实,这类研究能够帮助我们更好地理解音乐和语言的处理方式。另外,在对疾病的认识上也能给我们一些实证性的启发,例如揭示为什么布罗卡失语症患者讲话费力,但通常却可以毫无困难地用唱歌的方式唱出相同的词。
这项研究也为将情感赋予合成语音奠定了基础。尽管研究重点放在音乐上,但研究人员认为,这项结果对于基于脑电波的语音合成将有很大帮助。无论哪种语言,人类的话语都包含着节奏、重音、抑扬顿挫等音乐性要素,这些要素构成了话语之中隐含的情感成分。
“这些元素,我们称之为韵律,携带着无法仅仅用语言表达的意义。”研究者Bellier希望这个模型能够改进脑机接口技术,使语言辅助不仅能重构语音本身,还能重构话语中用韵律表达的意图。
过去,科学家们已成功重建脑内语音,能使中风或肌萎缩侧索硬化症等神经系统疾病患者通过植入式语音解码器来表达自己;但此类重建通常是机械、刻板的。研究者们希望这项成果最终能帮助失语患者恢复自然言语的音乐性。
“如果脑机接口能够用音乐中固有的韵律和情感来重新创造某人的言语,那么它所能重建的不仅仅是单词,不是机械地说,‘我,爱,你,’而是可以像真人一样大喊,‘我爱你!’”
另外,这项研究重建的是研究对象听到的音乐,而研究者Robert Knight认为,未来的研究应向重建脑中想象的语音、音乐发展。“虽然他们没有记录受试者想象音乐时的大脑反应,但这可能是脑机接口未来的用途之一:将想象的音乐转化为真实的音乐。”
不过,这项技术离实际运用还有很长的路要走,比如,目前获取的数据还基于有创的颅内植入电极;或许未来可以利用无创电极来实现数据收集,这将建立在脑机接口技术的发展之上。
总之,一旦这项技术成熟应用,是否我们就能依靠一个轻型头盔来创作心中的音乐呢?那时候会有怎样瑰丽的想象化为现实?让我们无限遐想。
参考文献
Bellier L, Llorens A, Marciano D, Gunduz A, Schalk G, Brunner P, et al. (2023) Music can be reconstructed from human auditory cortex activity using nonlinear decoding models. PLoS Biol 21(8): e3002176. https://doi.org/10.1371/journal.pbio.3002176