-
0 引言
-
情感是人类沟通、决策、人机交互的重要因素.基于计算机技术和人工智能技术的人类情感分析,可使用不同的生理信号测量方法,如肌电图、心电图、呼吸率、皮肤电反应和脑电图(Electroencephalogram,EEG)等.近年来,随着便携式脑机接口(Brain Computer Interface,BCI)设备的普及,基于EEG信号进行情感识别已成为研究的热点[1-2].与其他生理信号相比,EEG信号具有获取简便、非侵入性和低成本的优点.Zheng等[3]通过差分熵进行了一系列实验,并比较了具有不同机制的各种分类算法.Shen等[4]通过集成学习模型研究了多尺度频带对EEG情绪识别的影响.他们根据每个频带的数据训练分类器,并自适应地为每个分类器分配一个权重,以提高模型性能.
-
现有的基于EEG的情感识别需要在训练阶段花费大量的带标签数据.一种比较简单而直接的方法是重复利用之前采集的EEG数据训练一个通用分类器,而不考虑个体间的差异.但是,传统的机器学习算法建立在训练数据和测试数据独立同分布的假设之上.EEG信号具有非线性和非平稳性的固有特性.针对相同情绪状态从不同人群中提取的特征集,如脑电通道的谱带功率,并没有表现出很强的相关性.因此,EEG信号训练和测试数据往往具有不同的分布[5].如何减少系统的训练成本,构建稳健的情感识别模型是当前研究的热点问题.Kang等[6]使用复合公共空间模式来利用不同个体EEG信号之间共享的公共信息.Yang等[7]提出一种结合显著性检验和顺序反向选择的多源半监督选择转移机用于跨个体EEG情感识别,该方法不利用原始EEG信号的特征,而是根据不同被试对象之间的显著差异来分析和选择特征.Li等[8]提出一种跨个体和跨会话EEG情绪分类方法,该方法通过使用无监督字典学习源领域和目标领域的公共数据空间.Lan等[9]提出一种领域适应方法,该方法设计了一个线性变换函数,使子空间特征中源领域和目标领域的边缘分布相匹配.Cimtay等[10]利用经过预训练的最新卷积神经网络结构挖掘特征潜在信息,以提高独立于个体的EEG识别模型精度.字典学习和稀疏表示(Dictionary Learning and Sparse Representation,DLSR)已成功运用在图像去噪、信号处理、图像识别等领域[11-12].Ni等[13]提出一种域自适应DLSR分类器,该方法为了减少域分布的差异,利用局部信息保持准则将源域和目标域样本投影到共享子空间.但该方法只考虑单个源领域,并将所有相关的辅助脑电图数据视为一个源领域,没有涉及多源域学习问题.
-
本研究考虑了多源域领域适应场景,其中多个源域包含丰富的监督标签信息,目标域只有少量带标签样本.本文将字典学习和多源域迁移学习结合成一个联合学习模型,提出一种多源域领域适应字典学习和稀疏表示方法(Multi-source Domain Adaptive Dictionary Learning and Sparse Representation,MDA-DLSR).尽管EEG信号存在不同个体和会话之间的差异,但也会存在一些潜在独立于个体和会话的公共知识,且共享的公共知识可以保存在一个共享的投影子空间中.MDA-DLSR方法的基本思想是将多个源域和目标域的EEG样本投影到一个共享的投影子空间,在共享子空间中学习共有字典.共有字典的学习准则是最小化类内稀疏重建误差和最大化类间稀疏重建误差,能将源领域的识别知识传递到目标领域.此外,为避免负迁移的发生,MDA-DLSR方法为每个源域分配一个领域适应权重,并自适应学习源领域权重最佳值.MDA-DLSR目标函数的求解采取参数交替优化的方法,可以保证所有参数同时达到最优解.DEAP数据集[14]上的实验结果表明,本文方法优于比较的领域适应学习方法.
-
1 字典学习和稀疏表示
-
设训练集,其中m和n分别表示数据的维数和样本数.DLSR可以解决字典空间中最小化原始信号与重构信号之间的重构误差[15].引入l1范数,DLSR的优化问题表示为
-
其中,是字典,是稀疏系数,T0表示字典原子中非零个数阈值.为了能适用于监督学习场景,将标签类别信息加入到目标式中,由此产生了一系列有监督DLSR方法.例如,标签一致性KSVD算法[16]在字典学习中加入线性分类器:
-
其中,是分类参数,α是正则化参数.
-
2 多源域领域适应字典学习和稀疏表示方法
-
2.1 算法思想
-
设有C个源域样本集和一个目标域,且每个领域的数据都不重叠,均带有类别标签.sC个源域和目标域的特征空间一致,但它们的边缘概率分布和条件概率分布可以不同.第i个源域Xsi和目标域Xt中的样本分别表示为和,样本的个数分别是nsi和nt,全部源域样本的个数为ns,.使用投影矩阵,将第i个源域Xsi投影到低维子空间,基于字典学习和稀疏表示计算类内稀疏重建误差:
-
是源域Xsi上的类内散度,可通过式(4)计算得到:
-
其中,函数返回的稀疏表示系数的K维映射向量,映射向量中对应第c类的元素等于,对应的其他类的元素设为零.tr(·)表示矩阵的秩操作.
-
投影空间中第i个源域Xsi上基于字典学习和稀疏表示计算类间稀疏重建误差:
-
是源域Xsi上的类间散度,可通过式(6)计算得到:
-
其中,函数返回的稀疏表示系数的K维映射向量,与不同的是,其对应第c类的元素等于零,对应的其他类的元素为(m≠c).
-
使用类似的方法,使用投影矩阵,将目标域Xt投影到低维子空间,目标域Xt上的类内稀疏重建误差 和类间稀疏重建误差,计算式如下:
-
其中, 是源域Xt上的类内散度,.
-
其中,是源域Xt上的类间散度,.
-
MDA-DLSR方法在共享子空间中通过公共字典来学习多源域和目标域EEG数据的共有判别知识.一方面,多源域EEG信号的稀疏表示和分类器在子空间中是独立的; 另一方面,领域共享字典用于在各个域之间建立潜在的联系,它可以将判别信息从多源域传递到目标域.根据最小化类内稀疏重建误差和最大化类间稀疏重建误差构建判别项保证了模型的判别能力.为了有效利用多个源领数据的判别知识,同时避免负迁移,MDA-DLSR赋予每个源域自适应权重.基于以上思想,MDA-DLSR的目标函数表示为
-
其中,是权重向量,元素表示第i个源领域在目标函数中的重要程度.γ(γ>1)是平衡指数.
-
为简化目标函数的计算,将式(9)中两项的分子和分母进行合并.同时,定义矩阵,式(9)可以重写为
-
2.2 模型优化
-
显然式(10)是一个非凸问题,涉及3个参数{P,D,λ},本文采用参数迭代优化方法进行求解.
-
1)固定参数{D,λ},求解P.为了避免过度拟合,将一个正则化项加入到式(10)的分母中.根据跟踪比优化(Trace Ratio Optimization,TRO)策略[17],对于投影矩阵P,必有一个最大值q*,使得:
-
其中,μ是一个非常小的正常数.经过整理,式(11)进一步写成以下形式:
-
为求解式(12),定义以下关于q的函数f(q):
-
f(q)具有两个性质:① f(q)是一个递减函数; ②f(q)=0当且仅当q=q*.也就是说,q的最优值总是存在的,通过迭代交替更新P和q能得到相应的最优解.因此,对(13)进行q的一阶求导,可得f′(q)=-tr(P(q)T(B+μI)P(q)),令f′(q)=0,得到q的极值.考虑目标函数关于矩阵P的约束PTP=I,式(13)可以转化为一个特征值分解问题:
-
其最优解是求解式(14)得到的关于P的前d个最大特征值.
-
2)固定参数{P,λ},求解D.目标函数关于每个类别的子字典可以表示为
-
根据矩阵A和B的定义,矩阵Ac和Bc分别对应矩阵A和B在第c类样本上的运算结果.
-
子字典Dc采用梯度上升法进行求解,Dc=Dc+αJ′(Dc),其中α是学习率,J′(Dc)则可由下式计算得到:
-
3)固定参数{P,D},求解λ.在式(9)引入拉格朗日乘子β并忽略常数项,可以得到 的解析解:
-
对于测试样本z,根据得到的最优投影矩阵Pt和字典D,计算其在第j类上的类别:
-
其中, 是第j类子字典Dj 的伪逆.最后,使用投票法来得到样本z的类标签.
-
模型的求解中:参数P通过特征值分解求得,其时间复杂度是O((ns+nt)3); D通过梯度上升法获得涉及矩阵的乘法运算,其时间复杂度是O(k1(ns+nt)3),k1是迭代的次数; 参数λ的运算涉及矩阵的乘法和除法,其时间复杂度也是O((ns+nt)3).因此,MDA-DLSR方法的时间复杂度是O(k1k2(ns+nt)3),其中k2是参数{P,D,λ}优化的迭代次数.
-
3 实验
-
3.1 数据集
-
本文使用DEAP数据集[14]来验证所提出的情感识别方法的有效性.DEAP数据集来自英国伦敦玛丽皇后大学等4所大学,记录了32名志愿者在观看40段音乐视频时的EEG信号和视频信号.对每位志愿者进行了40次数据采集,每次采集过程中播放一段特定的63 s视频.这些视频由参与者根据唤醒(Arousal)和效价(Valence)等指标进行评分,评分范围为1~9.实验中采用的类别标签设定为:将评分划分成2个带有阈值5的二元分类问题,即高/低Arousal和高/低Valence(低:≤5; 高:> 5).EEG信号按照10-20国际标准导联系统放置32个电极采集得到.数据预处理时将EEG数据下采样至128 Hz,去除信号的伪影并删除3 s基线数据,并应用4.0~45.0 Hz的频率实施带通滤波.在EEG信号的众多特征提取方法中,微分熵(Differential Entropy,DE)[18]被认为能反映EEG特征的连续随机变量的复杂性.对于固定长度的EEG片段,DE特征可以等价于特定频带内的对数能量谱.实验使用256采样点的短时傅里叶变换和1 s的非重叠窗口来提取EEG信号的5个频带(δ:1~3 Hz; θ:4~7 Hz; α:8~13 Hz; β:14~30 Hz; γ:31~50 Hz).然后计算每个频带的DE特征.由于每个频带信号有62个通道,一个样本可提取310维的DE特征.
-
3.2 实验设置
-
为验证所提方法的性能,实验与两类方法进行了比较.一类是基线方法——高斯核支持向量机(Support Vector Machine,SVM)[19]和标签一致K-SVD(LC-KSVD)[16]方法; 另一类是领域适应方法——自适应子空间特征匹配(Adaptive Subspace Feature Matching,ASFM)[20]方法、最大独立域自适应(Maximum Independence Domain Adaptation,MIDA)[21]方法、稳健主成分分析(Robust Principal Component Analysis,RPCA)[22].具体的参数设置如下:高斯核的核参在网格{10-3,10-2,···,103}中搜索,正则化参数在网格{2-6,2-5,···,26}中搜索.LC-KSVD的字典原子数设置为训练样本个数的1/3.MIDA的投影空间维度在网格{20,30,···,100}中搜索.ASFM的阈值参数设置为0.45.RPCA的平衡参数设置为样本数和特征数最大值的平方根.本文所提方法的子空间维度是通过搜索网格{20,30,···,100}来确定的.每个类的原子数在{10,15,20,25,30,35}中选择.实验中源领域和目标领域的设置策略采取留一法,即数据集中的每个个体均可作为目标领域,其他的个体均作为源域.因此,DEAP数据集上进行了32轮实验,其中31名个体作为多个源域.因为训练集样本较多,实验中在每名个体样本中随机选择1/2数量的EEG数据进行训练,目标域中随机选择20个样本作为训练集,剩余的目标域样本作为测试集.这一实验过程进行了10次,记录了每种方法的分类精度.所有算法均在MATLAB 2019a中实现.
-
3.3 对比实验
-
实验比较了MDA-DLSR方法在DEAP数据集上的Arousal和Valence的识别率.各方法在32名个体上的平均识别率如表1所示,其中个体编号用ID表示.为了充分显示各方法在每名个体上的具体结果,图1、图2分别显示了各方法在32名个体上的Arousal和Valence的识别率.从实验结果可以看到:1)基线方法SVM和LC-KSVD的Arousal和Valence识别率最低.SVM和LC-KSVD将所有的源域数据和目标域训练数据混合在一起,不同领域数据分布上的差异使得源领域对于目标域上数据识别的辅助效果是有限的.2)在对比的领域适应方法中,本文提出方法MDA-DLSR的Arousal和Valence识别率最高.主要原因在于:MDA-DLSR从多个源领域学习的共享字典可以使用更多的判别知识来辅助目标域上分类器的建立,而且每个源领域自适应地学习权重,可以有效防止负迁移的发生.MDA-DLSR方法的参数迭代学习策略保证了所有参数同时达到最优解,可以保证迁移学习的效果.3)从表1结果可以看出,MDA-DLSR方法的标准差也是较小的,说明该方法具有较好的稳定性.而SVM和LC-KSVD的标准差较大,说明这2种方法在处理跨个体EEG情感识别任务易发生过拟合的现象.
-
图1 各方法在32名个体上的Arousal识别率比较
-
Fig.1 Comparison of recognition performance in terms of Arousal on 32 individuals
-
图2 各方法在32名个体上的Valence识别率比较
-
Fig.2 Comparison of recognition performance in terms of Valence on 32 individuals
-
3.4 参数分析
-
所提MDA-DLSR方法中需要寻优的参数有平衡指数γ、子空间的维数m和字典原子个数d.其中平衡指数γ的寻优范围是{1,1.5,···,3},子空间的维数m的寻优范围是{10,20,···,100},字典原子个数d的寻优范围是{30,40,···,120}.表2列出了参数γ在DEAP数据集上的Arousal和Valence识别率.图3和图4分别显示了参数m和d在DEAP数据集上的Arousal和Valence识别率.从实验结果可以看出:1)平衡指数γ的作用是调节各源域在目标函数的权重.因为各源域的权重是介于[0,1]之间的实数,γ的值越小,各源域的权重比就越大; 相反,γ的值越小,各源域的权重比就越接近.根据表2中的结果,平衡指数γ对应的Arousal和Valence识别率的变化是温和的.实验中可设置γ=2.2)投影空间的维数m和字典原子个数d对MDA-DLSR方法的性能起到决定性作用,不同m和d值对应不同的Arousal和Valence识别率.从图3和图4可以看出,MDA-DLSR方法可以在m和d较小时就可以得到较高的Arousal和Valence,当m大于50且d大于80时,MDA-DLSR的性能可以达到稳定.根据图3—4的结果,实验可以设置m和d值分别设置为60和80.
-
图3 不同参数m和d的Arousal识别率
-
Fig.3 Recognition performance in terms of Arousal with different m and d
-
4 结语
-
本文提出了一种用于脑电情感识别的多源域领域适应字典学习和稀疏表示方法.该方法为多个源领域和目标领域寻找一个投影子空间,在子空间中通过共有字典建立多个源域和目标领域之间的桥梁.为充分利用源领域数据的识别能力,共有字典的学习准则是最小化类内稀疏重建误差和最大化类间稀疏重建误差.同时,通过源领域自适应地权重学习可以有效避免负迁移的发生.在真实脑电情感识别数据集DEAP上的实验证明了本文方法的有效性.本文方法将在更多的脑电情感数据集上实践和应用,以增加模型的鲁棒性.本文方法的时间复杂度相对较高,如何进一步优化算法和开发快速训练模型是需要解决的问题.另外,将脑电信号和其他生理信号如肌电图、心电图、呼吸率等进行多模态情感识别方法也是下一段工作的主要内容.
-
图4 不同参数m和d的Valence识别率
-
Fig.4 Recognition performance in terms of Valence with different m and d
-
参考文献
-
[1] 权学良,曾志刚,蒋建华,等.基于生理信号的情感计算研究综述[J].自动化学报,2021,47(8):1769-1784 QUAN Xueliang,ZENG Zhigang,JIANG Jianhua,et al.Physiological signals based affective computing:a systematic review[J].Acta Automatica Sinica,2021,47(8):1769-1784
-
[2] 郑伟龙,石振锋,吕宝粮.用异质迁移学习构建跨被试脑电情感模型[J].计算机学报,2020,43(2):177-189 ZHENG Weilong,SHI Zhenfeng,LÜ Baoliang.Building cross-subject EEG-based affective models using heterogeneous transfer learning[J].Chinese Journal of Computers,2020,43(2):177-189
-
[3] Zheng W L,Zhu J Y,Lu B L.Identifying stable patterns over time for emotion recognition from EEG[J].IEEE Transactions on Affective Computing,2019,10(3):417-429
-
[4] Shen F Y,Peng Y,Kong W Z,et al.Multi-scale frequency bands ensemble learning for EEG-based emotion recognition[J].Sensors(Basel,Switzerland),2021,21(4):1262
-
[5] Ruan Y,Du M Y,Ni T G.Transfer discriminative dictionary pair learning approach for across-subject EEG emotion classification[J].Frontiers in Psychology,2022,13:899983
-
[6] Kang H,Nam Y,Choi S.Composite common spatial pattern for subject-to-subject transfer[J].IEEE Signal Processing Letters,2009,16(8):683-686
-
[7] Yang F,Zhao X C,Jiang W G,et al.Multi-method fusion of cross-subject emotion recognition based on high-dimensional EEG features[J].Frontiers in Computational Neuroscience,2019,13:53
-
[8] Li J P,Qiu S,Du C D,et al.Domain adaptation for EEG emotion recognition based on latent representation similarity[J].IEEE Transactions on Cognitive and Developmental Systems,2020,12(2):344-353
-
[9] Lan Z R,Sourina O,Wang L P,et al.Domain adaptation techniques for EEG-based emotion recognition:a comparative study on two public datasets[J].IEEE Transactions on Cognitive and Developmental Systems,2019,11(1):85-94
-
[10] Cimtay Y,Ekmekcioglu E.Investigating the use of pretrained convolutional neural network on cross-subject and cross-dataset EEG emotion recognition[J].Sensors(Basel,Switzerland),2020,20(7):2034
-
[11] 郑雄风.基于字典学习的域适应方法研究[D].南京:南京邮电大学,2020 ZHENG Xiongfeng.Research of domain adaptation method based on dictionary learning[D].Nanjing:Nanjing University of Posts and Telecommunications,2020
-
[12] 万超.基于SCAD稀疏约束的字典学习算法及其在信号处理中的应用[D].广州:广东工业大学,2021 WAN Chao.A dictionary learning algorithm with the SCAD sparse constraint and its application in signal processing[D].Guangzhou:Guangdong University of Technology,2021
-
[13] Ni T G,Ni Y Y,Xue J,et al.A domain adaptation sparse representation classifier for cross-domain electroencephalogram-based emotion classification[J].Frontiers in Psychology,2021,12:721266
-
[14] Koelstra S,Muhl C,Soleymani M,et al.DEAP:a database for emotion analysis using physiological signals[J].IEEE Transactions on Affective Computing,2012,3(1):18-31
-
[15] 杨金龙,陈小平,汤玉,等.标签一致K-SVD稀疏编码视频跟踪算法[J].计算机辅助设计与图形学学报,2018,30(2):262-272 YANG Jinlong,CHEN Xiaoping,TANG Yu,et al.Visual tracking algorithm based on label consistent K-SVD sparse coding[J].Journal of Computer-Aided Design & Computer Graphics,2018,30(2):262-272
-
[16] Jiang Z L,Lin Z,Davis L S.Label consistent K-SVD:learning a discriminative dictionary for recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(11):2651-2664
-
[17] Zhang G Q,Sun H J,Xia G Y,et al.Multiple kernel sparse representation-based orthogonal discriminative projection and its cost-sensitive extension[J].IEEE Transactions on Image Processing,2016,25(9):4271-4285
-
[18] Zheng W L,Lu B L.Investigating critical frequency bands and channels for EEG-based emotion recognition with deep neural networks[J].IEEE Transactions on Autonomous Mental Development,2015,7(3):162-175
-
[19] Cortes C,Vapnik V.Support-vector networks[J].Machine Learning,1995,20(3):273-297
-
[20] Chai X,Wang Q S,Zhao Y P,et al.A fast,efficient domain adaptation technique for cross-domain electroencephalography(EEG)-based emotion recognition[J].Sensors(Basel,Switzerland),2017,17(5):1014
-
[21] Yan K,Kou L,Zhang D.Learning domain-invariant subspace using domain features and independence maximization[J].IEEE Transactions on Cybernetics,2018,48(1):288-299
-
[22] Lin Y P.Constructing a personalized cross-day EEG-based emotion-classification model using transfer learning[J].IEEE Journal of Biomedical and Health Informatics,2020,24(5):1255-1264
-
摘要
脑电信号容易记录且不易伪装,基于脑电信号的情感识别越来越受到人们的关注.然而,人类情感具有多样性和个体可变性,基于脑电信号的情感识别仍是情感计算领域的难题.本文提出一种多源域领域适应字典学习和稀疏表示方法.为减少源领域和目标领域数据分布的差异,将所有领域的数据投影到共享子空间,并在共享子空间中学习一个共有字典.根据稀疏重建的最小化类内误差和最大化类间误差准则,稀疏表示具有类别的分辨能力.另外,每个源域自适应学习领域权重,可以避免负迁移的发生.模型参数的求解通过参数交替优化方法,所有参数可同时达到最优解.DEAP数据集的实验结果显示本文方法在所有对比方法中是最优的.
Abstract
Electroencephalogram (EEG) signals are easy to record and difficult to camouflage,so EEG-based emotion recognition has attracted more and more attention.However,the diversity and individual variability of human emotion make the EEG-based emotion recognition still a difficult problem in the field of affective computing.To solve this problem,a multi-source domain adaptive dictionary learning and sparse representation approach is proposed in this study.To reduce the difference of data distribution between the source domain and the target domain,the data of all domains are projected into a shared subspace,where a common dictionary is learned.The sparse representation has the ability of class recognition according to the criteria of minimizing intra-class error and maximizing inter-class error of sparse reconstruction.In addition,each source domain adapts its domain weight to avoid negative migration.The model parameters are solved by parameter alternating optimization,and all parameters can reach the optimal solution simultaneously.The experimental results on DEAP dataset show that the proposed approach is the best among all the compared methods.