摘要
为了充分提取多通道EEG信号的频率信息和空间拓扑信息,提出一种混合注意力机制下胶囊网络的脑电情绪识别模型——CBAM-CapsNet.首先,获取不同频带的脑电信号并提取其微分熵特征;然后,将该特征映射到根据导联空间分布的三维紧凑型特征矩阵中;最后,将三维特征矩阵通过带有混合注意力机制的胶囊网络来进行模型训练和预测.实验结果表明:高频带相比低频带对于情绪识别影响更大,且使用四频带三维矩阵可以显著提高情绪识别准确率;CBAM-CapsNet在DEAP数据集Arousal和Valence上的二分类识别准确率分别为95.42%和95.52%,在DEAP数据集上Arousal_Valence联合四分类准确率为95.00%,在SEED数据集上三分类准确率为93.19%,相比现有主流基于深度学习的脑电情绪识别模型,准确率显著提升.
Abstract
To fully extract the frequency information and spatial topological information of multi-channel EEG signals,this paper introduces an EEG-based emotion recognition model utilizing a Capsule Network with a Convolutional Block Attention Module(CBAM-CapsNet).Firstly,EEG signals from different frequency bands are acquired to extract their differential entropy features.Secondly,these features are mapped into a three-dimensional compact feature matrix according to spatial lead distribution.Finally,the three-dimensional feature matrix is processed through the proposed CBAM-CapsNet for training and prediction.Experimental results indicate that the high frequency band has a greater impact on emotion recognition than the low frequency bands,and the use of four-frequency band three-dimensional matrix can significantly enhance the accuracy of emotion recognition.The proposed CBAM-CapsNet achieves binary classification accuracies of 95.42% and 95.52% on the Arousal and Valence dimensions of the DEAP dataset,respectively.It also attains a combined four-class classification accuracy of 95.00% for Arousal_Valence on the DEAP dataset,and a three-class accuracy of 93.19% on the SEED dataset.Compared to existing mainstream EEG-based emotion recognition models using deep learning,CBAM-CapsNet demonstrates a significant improvement in accuracy.
Keywords
0 引言
作为复杂的心理状态,情绪对人们的思维、行为乃至生理反应都有深远影响[1].在人机交互领域,情绪识别被视为一个关键要素.精准地掌握用户的情绪状态能够使计算机系统更加有效地响应并适应用户需求,进而提供更为个性化和人性化的交互体验[2].情绪的获取可以通过生理信号和非生理信号两种途径实现[3].生理信号包括眼电图(EOG)、心电图(ECG)[4]、肌电图(EMG)以及脑电图(EEG)等,而非生理信号则涉及面部表情[5]、语言和身体姿势等.相较于可能被掩盖的非生理信号,生理信号能够更为准确地映射出用户的真实情绪状态,因此,基于生理信号进行情绪分析正成为研究的热点.考虑到大脑在情绪调节过程中对中枢神经系统的直接作用,采用脑电信号(EEG)来识别情绪状态显得尤为重要.
情绪量化是基于计算机技术进行情绪识别的关键步骤,它主要分为离散型和连续维度型两种模型.在离散型模型中,情绪被归类为若干有限的状态,例如,上海交通大学情感脑电数据集(SEED)[6]便将情感划分为积极(positive)、消极(negative)和中性(neutral)三种类别.相对而言,连续维度型模型则通过多个相互独立的基轴来表示情感的多维特性,如效价-唤醒双极情绪象限系统[7]所示.此外,离散型情绪状态也可以对应地映射到连续维度状态空间中的特定位置.
在脑电情绪识别领域,特征提取环节至关重要,主要涉及时域特征、频域特征以及时频域特征等多个方面[8].时域特征主要捕获脑电信号的时序信息,涵盖了峰值间隔、均方值、方差、偏度、峰度及高阶过零点等指标.频域特征则侧重于分析脑电信号的频率信息,它在噪声抵抗和细节展现方面表现优越.频域特征包括最大功率谱频率、最大功率谱密度、小波能量[6]、小波熵、事件相关电位及香农熵等.除此之外,非线性动力学特征如近似熵、相关维数、微分熵(Differential Entropy,DE)、分形维数等亦在脑电特征提取中发挥着重要作用.特别是DE特征,作为一种重要的非线性特征,在多项相关研究中证实了其有效性与鲁棒性,并已被广泛应用于脑电信号的特征提取过程.
近年来,研究者在脑电情绪识别领域中广泛应用了深度学习方法,其效果显著优于传统的机器学习方法.例如:文献[9]采用深度置信网络(Deep Belief Network,DBN)对EEG信号的分形维数(Fractal Dimension,FD)、功率谱密度特征(Power Spectral Density,PSD)和小波变换特征(Discrete Wavelet Transform,DWT)进行分类,并发现FD和 DWT特征在1~4 s的滑动窗口上能够实现更高的性能;文献[10]则借鉴计算机视觉的思路,使用保留通道空间拓扑信息的微分熵特征图作为卷积神经网络(Convolutional Neural Network,CNN)的输入以提升性能.然而,空间上的邻近关系并不总是与功能关系的紧密程度成正比.鉴于此,文献[11]利用EEG电极间的相关性来构建图卷积神经网络(Graph Convolutional Neural Network,GCNN),其中,所用的图结构包括频内功能连接图和跨频功能连接图的融合.文献[12]提出了动态图卷积神经网络(Dynamical Graph Convolutional Neural Network,DGCNN)用于EEG情绪识别,其特点是邻接矩阵在训练期间动态更新,以更好地捕捉情绪状态的变化.文献[13]则探索了利用大脑两半球的不对称性,通过双半球差异模型(Bi-Hemispheric Discrepancy Model,BiHDM)来构建识别模型.该方法采用了两个独立的水平和垂直遍历的循环神经网络(Recurrent Neural Network,RNN),分别扫描左半球和右半球通道的EEG特征,从而深入学习两半球的特性.
有研究者将胶囊网络(Capsule Network,CapsNet)[14]应用到脑电情绪识别中.尽管卷积神经网络(CNN)[15]在情感计算领域展现出不错的性能,但依旧具有旋转变形不变性、池化层信息丢失和平移不变性的缺点.CapsNet旨在克服经典CNN在处理姿态变化和层次性特征表达时所面临的挑战.CapsNet使用胶囊向量代替CNN中的标量数据,使用动态路由机制代替CNN中的池化,使其能自动学习多种特征(如位置、旋转和图像域中的尺度),并有效捕捉简单与复杂对象间的关键空间关系.文献[16]提出的MFM-CapsNet,是一种采用多频带特征矩阵(Multiband Feature Matrix,MFM)作为输入的胶囊网络,其主胶囊的长度和方向分别代表了与情绪相关的存在性和特征.文献[17]提出基于多任务学习的注意力胶囊网络(Multi-Task Channel Attention CapsNet,MTCA-CapsNet),将胶囊网络与通道注意力机制融合于多任务学习框架之中.
鉴于脑电信号各通道间存在显著的相关性,将导联的拓扑信息融入特征中可有效地维持这种相关性.然而,当前大多数脑电情绪识别方法未能充分利用EEG导联的拓扑信息来提升识别的准确性.相较于传统的卷积神经网络,胶囊网络在脑电情绪识别方面展现出更优的性能.尽管如此,现有研究主要集中于将传统胶囊网络应用于脑电情绪识别任务,而较少将胶囊网络进行改进,使之更加适用于该任务.
本文提出一种混合注意力机制下的胶囊网络(Convolutional Block Attention Module CapsNet,CBAM-CapsNet)来进行脑电情绪识别,并配合了一种高效的特征提取算法.首先,计算DEAP数据集和SEED数据集微分熵特征并转化为包含频率和导联拓扑空间信息的三维特征矩阵.接着,将其输入到CBAM-CapsNet网络模型来进行情绪分类.模型通过扩大卷积层的宽度并增加层数来深入提取脑电信号的底层特征,同时将混合注意力机制集成到胶囊网络中使模型更加关注情绪相关频带和电极,显著提高情绪识别的准确率.通过在公开的DEAP和SEED脑电情绪识别数据集上进行广泛的实验验证,并采用五折交叉验证方法,以增强模型评估的可靠性.
1 方法
图1为本研究提出的CBAM-CapsNet用于情绪识别的流程.该流程主要包括以下几个步骤:首先进行带通滤波处理;其次去除脑电信号的基线干扰并提取微分熵(DE)特征;然后生成多频带导联空间信息矩阵;最终通过CBAM-CapsNet模型进行情绪状态的分类.
1.1 DEAP和SEED数据集
本文使用DEAP和SEED数据集来进行模型的训练和测试.DEAP数据集包括32名受试者的32通道的脑电信号,每名受试者观看40个音乐视频,并对每个视频在valence、arousal、dominance和liking4个方面在0到10之间打分来作为连续情绪标签.SEED数据集为三分类情感数据集,包括15名受试者的62通道的脑电信号,每名受试者分3个时段进行实验,每个时段观看15个带有离散情绪标签的中国电影片段.具体如表1所示.
图1基于CBAM-CapsNet的脑电情绪识别流程
Fig.1Flow chart of EEG-based emotion recognition using CBAM-CapsNet
表1情感数据集
Table1EEG-based emotion datasets
1.2 三维微分熵特征矩阵
特征提取从平缓渐变的原始数据中抽取剧烈变化的脑电特征,利于模型训练和测试.首先使用巴特沃斯带通滤波器对脑电信号划分带通滤波为4个频带的信号,分别是θ(4~8] Hz、α(8~14] Hz、β(14~31] Hz和γ(31~45] Hz.接着以0.5 s为时间间隔来计算微分熵特征,其中,DEAP数据集需去除基线信号.最后将DE特征映射到根据导联空间分布的三维特征矩阵中.
微分熵特征用来衡量EEG信号的复杂程度,定义为
(1)
其中:z为一个随机变量;f(z)为z的概率密度函数.高斯分布的微分熵值特征定义为
(2)
其中:z服从高斯分布N(μ,δ2);e为自然对数底数;δ为时间序列的标准差.
对于DEAP数据集,每条脑电数据都包括3 s放松状态下记录的基线信号和60 s刺激下记录的信号.本实验需要排除基线信号对情绪识别效果的干扰.本文对文献[18]中的基线信号去除法进行改进.设基准信号为,实验信号为,其中,C为信号通道数,N1、N2为信号长度.首先需要将基线信号切分成M1个长度都为L的片段,片段Xi(i=1,2,3,···,M1)∈RC×L.接着对这些片段计算微分熵DE特征并获得平均值,片段Xi计算DE特征为,平均值计算方法为
(3)
采用和基线信号相同的切分长度L将实验信号Y切分成M2个片段,片段Yj(j=1,2,3,···,M2)∈RC×L.接着计算每个片段微分熵特征∈RC×1.最后将从中减去,即可排除基线信号的影响,计算公式为

(4)
其中:
为去除基线微分熵特征后的脑电微分熵特征.在完成基线去除后,即可按照图2中的映射方法和图3中的堆叠方法得到三维特征矩阵.
为去除基线微分熵特征后的脑电微分熵特征.在完成基线去除后,即可按照图2中的映射方法和图3中的堆叠方法得到三维特征矩阵.
图232通道导联空间特征矩阵
Fig.232-channel spatial lead feature matrix
在特征提取步骤中,需计算DE特征将脑电数据转换成四频带的三维特征矩阵.其中,每个频带的二维矩阵为导联空间特征矩阵,尺寸为 8×9.图2和图4分别表示32通道和62通道脑电数据转换为二维导联空间特征矩阵.其中,电极的选择和放置使用了国际10-20系统电极放置法[19].
图3展示了SEED数据集62通道的脑电信号在进行特征提取的过程.由于SEED数据集没有基线信号,所以省去了DEAP数据集中的基线去除步骤.首先将信号按照0.5 s进行分段,并且使用巴特沃斯滤波器进行分频,其次将每段信号进行微分熵特征提取,然后按照图4的映射方法将各个频段的特征映射到二维的特征矩阵中,最后将4个频段的特征矩阵堆叠成三维特征矩阵.
研究发现,提取多个频带特征在进行情绪识别时,效果往往优于单个频带[20].本文针对该结论做进一步的实验,将四频带特征矩阵训练出模型的准确率同三频带特征矩阵进行比较.实验结果表明,使用四频带特征矩阵情绪识别准确率大于三频带特征矩阵,且γ(31~45] Hz频带对情绪识别影响最大,为4个频带中最重要的频带.具体实验步骤和结果见2.1.
1.3 CBAM-CapsNet模型
本文使用的CBAM-CapsNet分为4个部分:卷积层(Conv+ReLU)、混合注意力机制层(CBAM)、主胶囊层(Primary Caps)和情绪胶囊层(Emotion Caps).本文的胶囊网络模型结构如图5所示.卷积层提取脑电信号中的初级特征.混合注意力机制层对脑电信号中的频带和空间信息进行加权,从而使网络更加专注于与情绪相关的特征.主胶囊层运用8个并行卷积来生成8维度的初级胶囊.情绪胶囊层则通过动态路由机制生成16维度的高级情绪胶囊.最终,通过计算情绪胶囊的L2范数来进行情绪分类.
图3多频带三维特征矩阵
Fig.3Multi-band 3D feature matrix
图462通道导联空间特征矩阵
Fig.462-channel spatial lead feature matrix
图5CBAM-CapsNet模型结构
Fig.5CBAM-CapsNet model structure
1.3.1 胶囊网络
本文胶囊网络根据Sabour等[14]提出的神经网络架构胶囊网络进行改进.首先,根据脑电信号的输入格式增加网络前端模块卷积层的宽度和层数,深入提取脑电低级信息.其次,在主胶囊层和情绪胶囊层采用3次迭代的动态路由机制来进行信息传递.最后,为符合本文的模式识别任务,取消了原胶囊网络中的解码器结构.
卷积模块为了提取三维矩阵input∈R8×9×4的低级特征,由3个卷积层(Conv+ReLU)堆叠而成.第1个卷积层卷积核的大小为 5×5,卷积核的数量为 64 个;第2个卷积层卷积核的大小为 4×4,卷积核的数量为 128 个;第3个卷积层卷积核的大小为 4×4,卷积核的数量为 256 个.3层卷积的卷积核滑动步长都为 1 且卷积前后的导联空间信息矩阵尺寸保持不变.3层卷积随着卷积核变多、宽度变宽,所提取的特征也越丰富.
主胶囊层为了提取深度特征,由8个并行卷积组成.8个并行卷积生成了深度为8的胶囊向量来存储空间形态特征.由于胶囊向量的模长可以代表该特征的概率,即该特征的显著程度,模长越大特征越显著.所以对生成的胶囊进行挤压(Squash)来确定一个有界指标,如式(5)所示,Squash 函数为一种非线性变换,胶囊模长越长,挤压后模长越接近于1,反之越接近于0.和传统胶囊网络的挤压函数不同的是,本文使用全局胶囊挤压,即计算胶囊的L2范数时,使用了网络同批所有胶囊向量,而不仅仅是单个胶囊.本文在受试者01号上比较了2种挤压函数的准确率,发现使用全局胶囊挤压可以明显提升网络性能.
(5)
主胶囊层的输出1 344个8维度胶囊经过 Squash 函数挤压后,胶囊的模长就代表了该特征的概率.
情绪胶囊层首先将挤压后的胶囊进行动态路由(Dynamic Routing)算法.动态路由是胶囊网络的主要机制,它保留了来自低级胶囊的所有信息并将它们路由到最近的高级胶囊.通过迭代更新胶囊间标量积来决定连接权重,从而理解对象的内部组成结构和相对空间关系,相对于池化具有更高的灵活性和信息保留能力.低层胶囊表征情绪相关的脑电局部特征,高层胶囊表征一个情绪.图6是路由算法总过程.
首先,将主胶囊层的输出胶囊封装成一个预测向量,即将初级胶囊ui与变换矩阵Wij∈R8×16相乘得到,其中,变换矩阵Wij表示低级情绪特征与高级情绪特征之间的相对关系. 计算过程为
图6动态路由算法
Fig.6Dynamic routing algorithm
(6)
其次,通过bij的初始值可以得到cij,接着将预测向量乘以相应权重cij后累加构成高层胶囊的输入Sj.Sj计算过程为
(7)
cij为由动态路由过程来决定的耦合系数,且满足:
(8)
cij的计算过程为
(9)
由式(9)可知,cij由softmax归一化得到,其中,初始耦合系数bij为第i个初级胶囊连接到第j个情绪胶囊的对数先验概率,初始值为0.初始耦合系数bij的迭代更新如式(10)所示:
(10)
最后,Sj经过Squash函数得到vj.
情绪胶囊层生成的是深度为16的高级胶囊,每个高级胶囊都由动态路由算法来得到.胶囊个数为当前模型情感类别数,每个胶囊的长度代表当前情绪的概率,最后对每个胶囊向量计算L2范数输出每种情绪的概率.假设每个情绪向量为(x1,x2,···,xi,···,x16),则L2范数计算公式为
(11)
1.3.2 混合注意力模块
混合注意力机制模块(Convolutional Block Attention Module,CBAM)如图7所示,它由两部分组成:通道注意力机制(对频带赋予权重值)和空间注意力机制(对导联空间信息矩阵赋予权重值).三维特征矩阵F∈Rh×w×c依次经过上述两个模块,通道注意力模块对EEG信号的频带赋予权重,空间注意力模块对EEG信号的电极赋予权重,有助于提高模型准确率.
在情绪识别任务中,经过三层卷积后得到特征矩阵维度为F∈Rh×w×c,其中,h=8,w=9,c=256.CBAM模块可以通过通道和空间注意力模块对F赋予权重,使得有效特征更加容易被胶囊网络学习[21].如图8所示,CBAM可以推断出一个一维通道特征图MC∈R1×1×c和一个二维空间注意力图MS∈Rh×w×1.整个注意力过程为

(12)

(13)
其中:为逐项积;F′为经过通道注意力模块的输出;F″为CBAM的最终输出.
通道注意力图通过特征通道关系来产生.首先对输入特征矩阵F同时使用平均池化和最大池化来得到FCavg∈R1×1×c和FCmax∈R1×1×c,分别为平均池化特征和最大池化特征.接着,将这2个特征送入共享的多层感知器MLP来生成MC∈R1×1×c.该MLP具有一个隐藏层,隐藏激活大小为R1×1×c/γ,这里γ设置为16.最后对MLP的输出进行逐项和来输出MC.上述说明如式(14)所示:
图7混合注意力模块
Fig.7Convolutional block attention module
(14)
空间注意力图通过特征空间关系来产生,空间注意力与通道注意力互补.首先对F′沿通道轴进行最大池化和平均池化,生成2个二维图:F′Savg∈Rh×w×1和F′Smax∈Rh×w×1,分别为平均池化特征和最大池化特征.接着,将这2个特征连接起来并且通过一个标准卷积层来产生二维空间注意力图MS.
(15)
其中:σ为sigmoid激活函数;f7×7为卷积核大小为7×7的卷积操作.
2 实验
本文在DEAP和SEED数据集上使用CBAM-CapsNet模型进行单受试者的脑电情绪识别.实验在Tensorflow框架下通过Python来实现,环境为AMD Ryzen 7 6800H with Radeon Graphics CPU@3.20 GHz,16 GB内存,NVIDIA GeForce GTX3060显卡,64位Windows11系统.训练模型的批处理(batch size)大小为64,训练迭代数(epochs)为100,损失函数为交叉熵(categorical crossentropy),优化器为Adam,学习率为0.000 1,动态路由迭代数为3.实验使用五折交叉验证法,对每名受试者样本随机平均分为5份子集,不重复地将其中4份子集作为训练集并将剩余1份子集作为测试集,上述过程重复5次,5次测试集的识别准确率计算平均值和标准差,所有受试者的平均分类准确率和标准差代表CBAM-CapsNet的性能.
图8CBAM注意力结构
Fig.8Attention module structure of CBAM
2.1 模型输入
已有研究表明,使用单频带二维PSD特征矩阵来进行情绪识别准确率远低于多频带融合的二维矩阵[18],本文在该研究基础上进行改进.为了体现四频带三维DE特征矩阵的优越性,本实验在DEAP_Arousal上进行三频带特征矩阵对比实验.实验结果如图9所示,缺失θ(4~8] Hz的特征矩阵训练出来的模型准确率为95.07%,缺失α(8~14] Hz为95.15%,缺失β(14~31] Hz为94.20%,缺失γ(31~45] Hz为93.49%.使用四频带特征矩阵来训练模型的准确率为95.42%,高于任何三频带矩阵训练出来的模型.文献[22]通过功能网络分析和时频分析方法证明了高频γ波段相比其他低频波段的EEG信号在研究人类情绪感知上更为敏感和有效.从图9中可看出,缺失的频带值越高,情绪识别准确率下降得越多.这说明高频带对准确率影响更大,更有利于脑电的情绪识别.
图9DEAP_Arousal三频带与全频带特征矩阵准确率对比
Fig.9Accuracy comparison between three-band and full-band feature matrices on DEAP_Arousal
CBAM-CapsNet的输入为三维特征矩阵Xn∈Rh×w×d.根据图9的对比试验,本文设置参数d为4,表示4个频带,且有研究表明多频带的组合可以保留更多的特征信息,性能优于单频带[21].参数h、w分别设置为8和9,表示每个频带的DE特征矩阵的高和宽.所以,三维特征矩阵就保留了频率信息和空间信息.
2.2 模型训练与测试
2.2.1 DEAP
使用CBAM-CapsNet在DEAP数据集上进行二分类实验和四分类实验.其中,二分类实验分别选取Arousal和Valence标签,四分类实验将Arousal和Valence两者联合.实验中将受试者打分高于5的归为高效价和高唤醒,反之归为低效价和低唤醒.具体来说,二分类实验为高低效价的分类和高低唤醒的分类,四分类实验则根据Valence-Arousal双极情绪象限系统将情绪划分为高效价高唤醒、高效价低唤醒、低效价高唤醒和低效价低唤醒四类.
二分类准确率如图10所示:模型在DEAP_Valence上的单受试者平均准确率为95.52%,平均方差为0.64%;模型在DEAP_Arousal上的单受试者平均准确率为95.42%,平均方差为0.72%.在Valence分类任务中,30名受试者(除序号05和序号22)分类准确率大于90%,22名受试者准确率大于95%,13名受试者分类准确率大于97%;在Arousal分类任务中,30名受试者(除序号02和序号22)分类准确大于90%,23名受试者准确率大于95%,14名受试者分类准确率大于97%.另外,第22号受试者Valence准确率和Arousal准确率为86.63%和80.54%,远远低于其他受试者,原因可能是没有专注观看音乐视频或者在打分时没有很好考虑主观感受.
如图11所示,四分类准确率相比二分类略有下降,但95.00%的平均准确率依然显示了CBAM-CapsNet模型在情绪识别的强大性能.平均方差为0.67%进一步证明了模型在不同情绪状态识别中的稳定性和可靠性.四分类准确率下降可能是由于该任务在情感划分上更为细致,涉及更多的分类边界和内部差异,因此对模型的判别能力提出了更高的要求.
2.2.2 SEED
使用CBAM-CapsNet在SEED数据集上进行实验,准确率如图12所示,模型在SEED数据集上的平均准确率为93.19%,平均方差为0.41%.在15名受试者中,有8名受试者(序号02、04、05、06、08、09、10、14)超过了平均准确率,且13名受试者(除序号07、15)准确率超过了90%.该模型在SEED数据集上仍然具有高准确率和高稳定性.
2.2.3 网络推理时间
在进行单受试者实验时统计网络的推理时间,来展现模型在实际应用中的效率.表2展示了CBAM-CapsNet在DEAP数据集和SEED数据集上每个受试者的平均推理时间,其中,环境配置见实验设置部分.该模型在提高识别准确率的同时,其推理效率并未降低.
图10CBAM-CapsNet在DEAP数据集上二分类的准确率
Fig.10Accuracy of binary classification on DEAP dataset using CBAM-CapsNet
图11CBAM-CapsNet在DEAP数据集上四分类的准确率
Fig.11Accuracy of four-class classification on DEAP dataset using CBAM-CapsNet
图12CBAM-CapsNet在SEED数据集的准确率
Fig.12Accuracy on SEED dataset using CBAM-CapsNet
表2CBAM-CapsNet在不同数据集上的推理时间
Table2Inference time on different datasets using CBAM-CapsNet
2.3 混淆矩阵
混淆矩阵图可以直观反映出模型在不同情绪之间的区分性,揭示模型可能的偏差.图13展示了CBAM-CapsNet在DEAP二分类上的混淆图,可以看出模型对DEAP数据集的高效价比低效价更好区分,高唤醒比低唤醒更好区分.图14展示了CBAM-CapsNet在DEAP四分类上的混淆图,可以看出模型对DEAP数据集的高唤醒高效价最好区分,其次是高唤醒低效价、低唤醒高效价和低唤醒低效价.图15展示了CBAM-CapsNet在SEED数据集上的混淆图,可以看出模型对SEED数据集的积极情绪最好区分,其次是中性情绪和消极情绪.
图13DEAP数据集二分类混淆矩阵
Fig.13Confusion matrices for binary classification on DEAP dataset
2.4 同类研究对比
为了展现本文方法的有效性,将该方法与同类研究进行比较,结果如表3所示.文献[12]使用动态图卷积神经网络,动态学习脑电信号电极的内在关系并以邻接矩阵表示.本文充分提取了脑电信号的空间和频率特征,并与胶囊网络相结合.文献[23]提取EEG信号的时间和空间特征并提出卷积神经网络EmotioNet用于EEG情绪识别.本文使用动态路由代替其池化操作来提高信息保留能力.文献[24]利用离散小波变换将EEG分解成子带并利用三阶累积量得到各子带信号的非线性动力特征,采用粒子群优化来去除冗余信息,最后使用Bi-LSTM对优化后的特征进行分类.本文使用更模块化和精细化的网络深度提取特征,以提高准确性.文献[25]使用集成胶囊网络架构,以脑电频带作为集成模型的基准,将Theta、Alpha、Beta、Gamma以及多频带特征矩阵通过CapsNet生成5个胶囊网络模型,分别采用投票策略、加权平均策略两种集成学习方法生成结果.本文使用更长更宽的卷积来提取低级特征,并使用混合注意力模块来使网络更加关注情绪相关的电极和频带.从表3中可以看出,CBAM-CapsNet实现了最佳的准确率.通过对CBAM-CapsNet模型实施消融实验,发现仅保留一层卷积并移除CBAM模块后模型的识别准确率有所下降,而DEAP_AV四分类和SEED三分类下降更明显.这一结果说明了低级特征的充分提取以及混合注意力模块(CBAM)提升模型分类性能方面的重要作用.
图14DEAP数据集四分类混淆矩阵
Fig.14Confusion matrix for four-class classification on DEAP dataset
图15SEED数据集混淆矩阵
Fig.15Confusion matrix on SEED dataset
3 结束语
本文提出一种新颖的神经网络结构CBAM-CapsNet来进行脑电情绪识别.具体来说,特征提取生成三维微分熵特征矩阵,充分利用了脑电信号的频带信息和导联空间位置信息;网络部分首先使用三层卷积以充分提取低级特征,并使用混合注意力更加关注重要电极和频带;生成胶囊向量后利用动态路由机制生成情绪胶囊来进行情绪分类,克服了CNN中最大池化局部信息丢失问题.该模型在二分类任务DEAP_Arousal和DEAP_Valence上的准确率分别可达到95.42%和95.52%,在四分类任务DEAP Arousal-Valence上的准确率为95.00%,在三分类任务SEED上准确率可达到93.19%.相比于主流研究方法,本文的模型在识别准确率上显著提升.
本研究主要关注于研究单受试者的脑电情绪识别模型,即模型的训练数据和测试数据来源于同一受试者.然而,由于脑电信号的个体差异,单受试者模型在泛化到新用户方面存在限制.采用迁移学习方法的跨受试者脑电情绪识别模型可能解决这一问题,未来前景广阔.接下来,计划将域适应技术应用于当前脑电情绪识别模型,以开展跨受试者情绪识别算法的研究.
表3同类研究性能对比
Table3Performance comparison with similar studies

