摘要
通过测量语音相关的脑电信号变化来研究人脑对于标准语料的反应趋势.有16名被测者分别聆听了120条标准语音,每条8 s,语音之间有1~2 s的间隔且随机播放.提取被测者在聆听过程中的脑电信号,对1~40 Hz频段的脑电信号进行预处理并将其与语音信号进行分析比对.结果显示,被测者听到相同标准语音时有相同的脑电反应趋势.通过相锁值方法对脑电信号和语音信号进行相位差分析,证明了脑电信号与语音质量之间的功能连接性,并且脑电信号区分语音质量的正确率达到99.62%.
Abstract
This study examined the response tendency of the human brain to a standardized corpus of speech by measuring changes in speech-related electroencephalographic (EEG) signals.Sixteen participants listened to 120 standardized speech items,each lasting 8 seconds,with intervals of 1 to 2 seconds between them and played in a random order.During the listening process,the EEG signals were extracted from the participants,and the signals within the frequency band of 1-40 Hz were preprocessed and analyzed in comparison with the speech signals.The results showed that participants exhibited similar EEG response trends when exposed to the same standardized speech.Furthermore,phase difference analysis between EEG and speech signals was conducted using the phase locking value method,which demonstrated the functional connectivity between EEG signals and speech quality.Notably,the EEG signals achieved a 99.62% accuracy in distinguishing speech quality.
Keywords
0 引言
得益于高速发展的移动通信技术,语音通话可以提供一系列的服务,包括高清语音通话、多方通话、视频呼叫、实时字幕和语音助手等.而这些服务也涉及众多不同的厂商,如网络运营商、因特网服务供货商、通信软件提供商等.因此,如何在各种服务下确保语音通话质量就变得尤其重要.
传统的语音质量主观评价方法以MOS(Mean Opinion Score,平均意见分)评价为主,该方法邀请用户对语音服务进行打分,从而获得用户对语音质量和满意度的主观评分.但是,传统评价方法容易受到外界因素的影响,使用成本高昂并且实现周期长.因此,国际电信联盟(International Telecommunication Union,ITU)下设的国际无线电咨询委员会(International Radio Consultative Committee,CCIR)提出了基于客观语音质量评估的标准ITU-T P.862 PESQ(Perceptual Evaluation of Speech Quality,语音质量感知评估)和ITU-T P.863 POLQA(Perceptual Objective Listening Quality Analysis,感知客观听力质量评估).以上两个标准都是基于感知模型的客观语音质量评估方法,主要不同在于认知模型和算法细节.
目前用于主观评价所构建的感知模型尚不能完全模拟人的听觉感知,有可能存在听觉感知好但评分低的情况.因此,研究者们正在寻求其他客观感知评价的方法.文献[1]提出使用脑电信号来评估语音质量,证明了使用基于脑电图描述神经元在语音质量感知方面差异的测量方法可以客观测量受试者的听觉感知,并且不受自我意识干扰的影响.文献[2]对脑电信号特征进行分析,结果表明,P300分量与语音质量有较为明显的相关性.为了验证语音语料和脑电反应具有一致性,本文采用自然刺激的方式,让被测者接受标准语料的刺激,同时记录他们的脑电数据,通过脑电数据分析大脑活动模式,评估被试者对语音的响应和感知情况.此外,本文还分析了脑电信号与语音质量之间的关系,通过深度学习网络验证脑电信号区分5种语音质量的正确率达到99.62%.
1 脑电信号和语音感知评价
1.1 脑电信号简介
EEG(Electroencephalogram,脑电信号)是一种记录大脑内神经元电活动的生理信号.通过在头皮上放置电极,获取当前状态下的脑电信号,以便对大脑的功能活动进行研究.脑电信号研究在神经科学、认知心理学和临床医学等学科领域中被广泛应用.脑电信号具有高时间分辨率和非侵入性等特点,多年研究积累形成了神经振荡、神经同步和事件相关电位等理论框架.通过分析脑电信号与行为表现之间的关联性,揭示了大脑活动与认知行为(如注意、记忆、语言和情绪等)之间的关系.上述神经振荡、神经同步和事件相关电位等理论为基于脑电信号的语音质量感知评价方法提供了新的研究方向.
1.2 语音感知评测
传统的语音质量评测一般采用MOS值表示,但该分值是用户的主观评测,不一定能真实反映语音的质量.因此,ITU提出了基于客观感知的评测方法.语音服务感知评估是从人的听觉机制角度对语音内容的理解以及用户的满意程度来评测语音服务质量的.目前的主流方法是ITU-T P.863标准中的POLQA算法,其核心是通过模拟听感,用客观指标表述语音感知,然后通过客观性指标和补偿性指标计算出POLQA值,经由多项式映射为MOS-LQO(Listening Quality Overall,总体听力质量)值,从而达到评测目的[3].
1.3 脑电信号分析方法
在传统的认知科学实验范式中,研究者通常使用相对简单的声音刺激,如纯音或词汇来研究听觉注意的现象.然而,简单的声音刺激并不能完全模拟日常生活中复杂多变的听觉场景,因此该范式存在一定的局限性,在生态效度方面有待提高.
近年来,越来越多的认知科学研究开始尝试采用连续语音作为声音刺激,并将语音理解作为主要的听觉任务.这种新的研究方法旨在更真实地模拟日常生活中的听觉场景,从而提高研究的生态效度.通过这种方法,研究者能够更深入地探索大脑在复杂、高生态效度的听觉场景中的听觉注意机制.这种范式的转变有助于更好地理解大脑在现实生活中的听觉处理过程,为相关领域的研究提供更具有实际意义和价值的科学依据.
研究发现,当人们聆听语音时,大脑的delta频段(不大于4 Hz)和theta频段((4,7] Hz)的神经活动会与语音进行同步跟踪[4-5].其中,大脑的低频神经活动会同步跟踪语音中的低层级声学特征,如声强变化(即语音包络)[6-11].
脑电信号分析是对脑电图数据进行研究和处理的过程,旨在理解和解释大脑活动的特征和模式.常见的脑电信号分析方法包括时域分析、频域分析、空域分析和时频域分析等.在进行脑电信号分析时,需要综合运用各种方法和技术,结合研究目的,来解读脑电信号的特征和模式.
基于脑电信号的语音感知评估方法通过分析脑电信号的变化,了解不同语音质量对大脑活动的影响,分析语音服务的感知和情绪状态,了解用户的需求和偏好,以优化语音业务的质量和用户体验,进而提升用户的满意度.这种方法为语音感知评估方法的研究提供了一种新的视角和方向.
2 实验方法设计
2.1 实验室配置
本实验采用64导的EEG放大器(neuracle博睿康)采集并记录,采样频率为1 kHz.EEG电极帽包含64个活性电极(neuracle博睿康),并按照国际10-20系统位置分布.接地电极AFZ位于电极AF3和AF4之间,CPZ电极为参考电极.
实验环境分为屏蔽室和控制室,被试者在专业的屏蔽室完成所有实验步骤.屏蔽室可以屏蔽电磁干扰并严格控制外部噪声、室内温湿度和光线亮度.实验过程中被试者禁止使用手机等其他设备以防止注意力分散,实验由被试者独立完成.测试人员可在控制室通过监控观察屏蔽室内情况,如有特殊情况发生,测试人员可以通过麦克风与被试者进行必要的交流及指引.
2.2 评估语音素材制作
在研究大脑对自然语音加工过程中,理解其神经活动是一个具有挑战性的问题.自然语音不仅包含声学特征,如声音的强度和音调,还承载了丰富的语言信息,如词汇和短语.这使得描述大脑对自然语音的神经活动变得相当复杂.因此,如何准确描述这个过程被认为是认知科学研究领域的一大挑战.
为此,本研究采用自然朗读的方式来呈现语音材料.一名专业的男性播音员在录音室中,对实验语句进行自然朗读,并进行录音.在录制过程中,播音员对实验目的和不同语句之间的差异一无所知,以确保语音的自然性和真实性.该方法能够更真实地模拟日常生活中的听觉场景,为研究大脑在复杂、高生态效度的听觉场景中的听觉注意机制提供更准确的依据.
在自然朗读的语音中,音节的出现并不是按照固定的速率进行的,此外,语音还包含词汇的韵律特征.用于测试的语音长度为8 s,此长度可以确保实验的稳定性和可靠性,同时也能更好地模拟日常生活中的听觉场景.该语音包括两句日常交流中常用的高频用语,易于理解和交流.每句话之间都有1~2 s的间隔,以保证实验材料的合理性和准确性.此外,本语音符合ITU-T P.863的相关规定,作为本实验的标准语音材料.
2.3 参与者招募和样本特征描述
本次实验共有16位受试者参与,由于测试用语为汉语,因此受试者的母语需为汉语.为了尽量降低实验结果受主观认知的影响,要求所有受试者均未参与过类似的音频实验.受试者的年龄分布在20~29岁之间,平均年龄为23岁,身体机能、认知都处于成熟阶段.受试者中包括8名女性和8名男性,均为右利手,听力和视力正常,且无神经系统疾病.每位受试者都成功完成实验,他们的脑电图数据都被完整采集.此外,所有实验程序均已获得本研究所在学校的研究伦理委员会的批准.在实验开始之前,每位受试者都签署了知情同意书,并在实验完成后获得了适当的报酬.
2.4 实验设计和流程
如表1所示,级别1~5表示在语音通信过程中经过传输后的接收方所听到的语音,不同级别的语音反映了不同的语音质量,其中,级别5最接近传输前发送方说出的语音.
实验流程如图1所示,在实验过程中,受试者聆听了120条标准语音.所有的降级语音以随机顺序呈现,确保不同受试者之间的平衡,避免语音顺序和内容对实验结果的影响.实验要求受试者闭上眼睛,集中注意力听语音,并理解其中的内容.听完每段语音后,受试者需要按表1要求对语音进行评分.这一步骤是为了收集受试者对语音清晰度和可理解度的主观感受,从而更全面地评估降级语音的效果.通过这种方式,可以更准确地了解受试者在自然朗读语音中的听觉注意机制,为相关领域的研究提供更有价值的科学依据.
2.5 数据采集和预处理
脑电活动的变化极为迅速,为了准确捕捉这些变化,脑电仪提供了高采样频率,确保脑电信号具有出色的时间分辨率.根据过去的研究,脑电信号主要分布在5个不同的频段:alpha频段((7,12]Hz)、beta频段((12,30]Hz)、delta频段(不大于4 Hz)、theta频段((4,7]Hz)和gamma频段(大于30 Hz).然而,在记录脑电信号的过程中,存在一些噪声干扰,如低频漂移和工频干扰等.为了确保分析的准确性,本文将主要关注1~40 Hz频段的脑电信号.
本实验所有操作均由Matlab操作实现.首先改变参考电极为全脑平均,然后使用FIR(Finite Impulse Respons,线性相位)滤波器对脑电信号进行带通滤波,通带范围为1~40 Hz.由实验人员人工进行检查,观察实验信号是否存在肌电、眼电、电极故障等大幅漂移的重大信号干扰现象,一经发现则剔除,避免污染实验数据.经过人工检查清洗之后,采用ICA(Independent Component Analysis,独立成分分析)去除脑电信号中由于眨眼产生的无意识干扰噪声.预处理完成后,截取每个语音开始播放到播放结束后2 s(共计10 s)作为有用信号,进行下一步分析.
表1语音质量级别
Table1Voice quality levels


图1实验流程
Fig.1Experiment flow chart
2.6 数据分析方法
相位同步分析方法是将相位分量与振幅分量分离,以便挖掘脑电信号中隐藏的重要信息.相锁值是测量相位同步程度的量化值,表示在一个窄频带内两个信号之间的同步程度,这种程度是对神经元或神经群进行调节实现的精确锁定[12-17].锁相位算法流程如图2所示,通过希尔伯特变换中的经验模态分解,逐步分解不同尺度的波动,并产生几个数据序列,每个数据序列分布在一个窄频带上,通过计算瞬时相位进而得到锁相位的值.
1)经验模态分解
利用EMD(Empirical Mode Decomposition,经验模态分解)对信号进行自适应处理,是基于其自身尺度特性的一种方法,目标是实现信号的平稳化.通过这种方法,可以将非线性和非平稳的信号分解为有限数量的IMF(Intrinsic Mode Function,固有模态函数).IMF的数量与信号的复杂性相对应,而每个IMF都包含原始信号在不同时间尺度的局部特征信息.
对于一维信号x(t),需要识别的是其局部极值点,包括极大值和局部极小值.通过样条插值方法对每个极值点进行曲线拟合,即可得出上包络线(由局部极大值组成)和下包络线(由局部极小值组成).计算上下包络线的均值,得到平均包络m(t),然后将平均包络与原始信号进行差值运算,从而得到中间信号h(t)[18].如式(1)所示:
(1)
假设中间信息h(t)满足IMF的条件,将h(t)记作一个IMF,并计算剩余信号r(t),其计算方式如下:
(2)
如果h(t)不满足IMF的条件,则假设h(t)作为新的x(t),并重复上述步骤,直到h(t)满足IMF的要求[19].IMF的要求为:中间信号h(t)中不能存在负的局部极大值和正的局部极小值.使用符号D来表示停止条件:
(3)
重复上述筛选过程,得到k个IMF.当残余分量r(t)所包含的极值小于3时停止筛选.式(4)为原始信号的组成.
(4)

图2锁相位流程
Fig.2Phase locking flowchart
2)瞬时相位
基于希尔伯特变换计算瞬时相位[20].IMF 的希尔伯特变换记作F(t):
(5)
其中:ζ为柯西主值; f(t)为固有模态函数.f(t)的解析信号为Y(t),如式(6)所示:
(6)
瞬时相位计算公式为
(7)
3)相锁值
计算信号间的PLV(Phase Locking Value,相锁值):
(8)
如式(8)所示,相锁值的取值范围介于0和1之间,0表示没有同步,1表示完全同步.同步的程序取决于两个信号的瞬时相位差,该差值体现了两个信号相位的波动情况,0表示相位差大、波动大,1表示相位差小、波动小.通过对脑电信号的相位分离,可以发现信号的强弱程度与大脑功能连通性之间的关系[21].
3 结果分析
3.1 结果分析和讨论
预处理后的脑电信号去除坏段后,将脑电信号按每段10 s进行划分.在频谱分析时,先将脑电信号进行平均,再进行DFT(Discrete Fourier Transform,离散傅里叶变换)获取脑电频谱,频域分辨率按1 Hz计算.将脑电频谱的能量在脑电电极和受试者之间进行平均.
用于测试的语音波形如图3所示,共包含两句话.图4为频域分析结果(图4中,ERSP表示事件相关频谱扰动(Event-Related Spectral Perturbation),ITC(Inter-Trial Coherence,试验间一致性)表示事件相关锁相,蓝色线表示未受语料刺激时的基准线,红色线表示收听语料刺激后的ERSP包络线,ERP表示事件相关电位(Event-Related Potential),单位μV.对比图3和图4可以看出频域图和语音较为吻合.1 s开始有语音,2.5 s开始出现较强的beta和theta波,并产生认知,在4.5 s左右出现分散的beta和theta波,并对第一句话产生认知,第二句话在6 s左右开始有较分散的beta和theta波,并产生认知,在7.5 s时开始有较强的beta和theta波,并产生认知,由于包括两句话,因此认知信号更为强烈.

图3标准语音波形
Fig.3Standard speech waveforms

图4时频分析
Fig.4Time-frequency analysis
图5中,横坐标表示事件持续时间,纵坐标表示相关电位的值.对比图3可以看出,图5和语音吻合较好,1 s开始出现语音,在2.5 s第一句结束后产生较强负波,随后第二句话在4.7 s开始,准备接受第二段话刺激,说话结束后7.5 s出现更强负波,由于认知层面涉及两句话,因此波幅更大,且认知集中在前额叶认知区域.
3.2 脑电信号与语音刺激之间的关系
实验中,受试者被要求听取标准语音刺激,并同时记录脑电数据,发现不同人听到相同标准语音时,有相同的脑电反应趋势.
本文从大脑功能连接的角度去分析脑电信号与语音质量之间的关系.通常采用互信息方法分析两个信号之间的依赖或相关程度,计算大脑的功能连接性.互信息不仅可以检测信号间的线性相关性,还可以检测信号间的非线性相关性,但相关性的准确度受信号的影响较大,特别是含有噪声和长信号的情况.为此,本文选择相锁值的方法,通过对两个信号进行相位差测量实现功能连接性的分析.

图5通道ERPs
Fig.5Channel ERPs
通过经验模态分解,原始信号得到的固有模态函数分量波形如图6所示(纵坐标为振幅,μV).
计算各个固有模态函数的功率谱,得到固有模态函数分量的频谱,如图7所示(纵坐标为功率谱,dB).
由于经验模态分解出的固有模态函数分量有多个,故需要选定某个固有模态函数分量进行后续的分析.通常选取前几阶的IMF分量再平均进行分析,这种方法不具有自适应性.为了解决这个问题,本文提出一种改进锁相位的方法(图8).以距离作为衡量值,计算每个固有模态函数分量与原始信号间的距离,体现分解信号与原始信号的相似性.本文引入DTW(Dynamic Time Warping,动态时序相似度)度量算法作为标准,选取固有模态函数分量.

图6固有模态函数分量
Fig.6IMF components

图7固有模态函数分量频谱
Fig.7Spectrogram of IMF components
DTW是一种距离计算方法,用来检测两个时序的相似程度.距离越小,相似性越大,故以最短距离的固有模态函数分量作为新信号,再计算各个通道之间的相锁值,实现对皮层脑电的功能连接性分析.
为了更好地体现各个电极之间的同步性,选取不同脑区具有代表性的电极:O1、O2、P3、P4、Pz、P7、P8、C3、C4、Cz、T7、T8、F3、F4、Fz、F7、F8、FP1、FP2.这19个通道分别对应着枕区、顶区、中央区、颞区、额区和前额区.图9a—e分别对应1、2、3、4、5级降级语料刺激下的大脑功能连接示意图.图9a的红色线段最多,说明1级降级语料的刺激下大脑功能连接性增强,表示需要较为集中地去思考听到的内容; 图9b、9c的红色线段有所减少,且图9c比图9b更少,说明2、3级降级语料的刺激下大脑功能连接性降低,能够大约听清楚语料的内容; 图9d的橙黄色线段增加,说明4级降级语料的刺激下大脑功能连接性再次降低,能够较为清楚地听到语料内容; 图9e的蓝色线段增至最多,说明5级降级语料的刺激下大脑功能连接性最弱,表明可以清晰地听到语料内容,无需认真思考语料所表达的内容.不同降级语料下的脑电相锁值统计结果表明,脑电信号的功能连接程度存在显著差异(P<0.05).

图8改进锁相位流程
Fig.8Block diagram of improved phase locking flow
图9基于相锁值的大脑功能连接性分析
Fig.9Brain functional connectivity analysis based on phase locking values
将5种级别的语音所生产的大脑功能连接图作为输入,经过深度学习网络验证是否能有效区分不同的级别.深度学习网络的模型为四层卷积,两层卷积之间为最大池化层,两个全连接层中间为一个Dropout层,最终的分类正确率为99.62%.
实验结果表明,在听到相同标准语音时,被试者们的脑电信号呈现一致的反应趋势.同时,该发现也为一种与语音刺激内容相关的神经认知机制提供了依据.
4 结论和展望
本研究的应用背景为无线多媒体通信,相关技术的高速发展导致使用传统的客观质量评价难以衡量用户的体验质量.如果采用基于用户主观反馈的评估方法,则过度依赖用户,且容易受到用户的高层认知偏差影响.而使用脑电信号分析用户对于音频的感知过程,可以有效地消除上层认知偏差.本文设计的一种基于自然刺激脑电实验,采用符合ITU-T P.863的标准语音作为刺激材料,组织16位受试者参与测试,通过实验得出所有受试者在听取相同的标准语音的脑电反应上展现出一致性的趋势.并且,脑电信号与语音质量之间具有功能连接性,脑电信号正确区分语音质量的正确率达到99.62%.
研究结果表明,使用脑电信号对音频质量评估具有可实现性、可解释性,证明了脑电信号更能反映用户的真实体验质量,为之后使用脑电信号评估用户体验质量提供了依据.在今后的研究中,可以利用源定位等技术手段,对脑电信号产生的位置进行标记,以提取更准确的脑电信号,减少误差.此外,除了脑电信号,还可以将磁共振、脑磁图、心电仪、眼动仪等多种手段结合,提出多模态的主观质量评估方法,为主观体验定量化进行科学性描述,最终达到准确评估业务质量的目的.