【论文解读】Multimodal Fusion with Deep Neural Networks for Audio-Video Emotion Recognition

摘要:本文提出了一种新的音频、视频和文本多模态融合用于情绪识别的深度神经网络。该DNN体系结构具有独立层和共享层,这些层旨在学习每种模态的表示,以及模态之间的最佳组合来得到最佳的预测结果。AVEC情绪数据集上的实验结果表明,与其他在特征水平上进行早期模式融合的先进系统相比,我们提出的DNN可以实现更高水平的一致性相关系数(Concordance Correlation Coefficient, CCC)。该DNN在数据集开发分区上分别获得了0.606、0.534和0.170的CCCs,分别为唤起度(arousal) 、效价(valence)和喜欢度(liking)。

1 Introduction

最先进的传感器捕捉音频和视频信号,这为许多创新技术铺平了道路,这些技术可以实现非接触式的监测和诊断。例如,它们可以对个人进行持续的健康监测,这对于治疗和管理范围广泛的慢性疾病、神经障碍和精神健康问题,如糖尿病、高血压、哮喘、自闭症谱系障碍、疲劳、抑郁、药物成瘾等,变得越来越重要。

人们普遍认为,未来的人类环境(家庭、工作场所、公共交通等)将包含智能传感器阵列,可以支持和预测所需的行动,以一种普遍和不显眼的方式最佳地自我调节心理状态。识别个人情感状态的技术,特别是图像/视频和语音处理技术以及机器学习技术,有望在这一未来愿景中发挥关键作用。

然而,尽管有精密的传感器和技术,如何在真实场景精准识别仍然是一项挑战。首先,稳定地捕获时空信息,并为种群中的每个表达提取共同的可有效编码的时间特征同时抑制特定主题(类内)的变化是很难的。根据特定的个体行为和捕捉条件,面部表情和言语表达具有显著的时空变化。此外,创建具有代表性的大型音频视频数据集,并根据需要提供可靠的专家注释,以设计识别模型,并准确检测唤醒和效价水平是非常昂贵的。

在本文中,我们认为动态表情识别技术能够使用多种不同的模式准确地评估对象的时序情绪状态。我们提出了一种深度神经网络(DNN)结构,用于语音、人脸和文本信息的多模态融合,用于音视频情感识别。为了准确识别,本文提出的DNN提供了一个中间层次的融合,其中特征、分类器和融合函数以端到端的方式进行全局优化。

论文结构如下。第二部分介绍了文献中提出的针对不同模式的情绪识别技术。第三节介绍了多模态融合的DNN体系结构。第四部分给出了实验协议,第五部分给出了在RECOLA数据集上进行的实验,以及针对音频、视频和文本三种模式的实验结果,以及它们的融合。最后,在最后一节中对未来的工作进行了总结和展望。

2 Related Work

在过去的十年中,面部表情识别(ER)一直是人们非常感兴趣的话题。人们提出了许多ER技术,可以从一张静止的面部图像中自动识别出七种常见的情绪类型——喜悦、惊讶、愤怒、恐惧、厌恶、悲伤和中性。这些面部ER的静态技术往往是基于外观或基于几何图形的方法。最近,动态面部表情识别技术已经成为一种提高性能的方法,其中表情类型是通过在一个对象的物理面部表情过程中所捕获的一系列图像或视频帧来估计的。这不仅可以在空间域提取人脸的外观信息,还可以在时间域提取人脸的演化信息。该技术可以是基于形状、基于外观或基于动作的方法。

基于形状的方法,如约束局部模型(constrained local model, CLM),基于突出锚点标记来表示面部特征形状,这些标记的运动为识别过程提供了判别信息;基于外观的方法,如LBP-TOP从面部图像中提取图像强度或其他纹理特征来表示面部表情;基于运动的自由变形模型等面部表情时空演化方法,需要可靠的人脸定位方法。例如,Guo等人使用atlas构造和稀疏表示从动态表达式中提取时空信息。虽然计算复杂度较高,包括时间信息和空间信息,但与静态图像相比,具有更高的识别精度。

在过去的几年里,自动检测说话人的情绪状态变得越来越流行。为了提高抑郁检测和情绪检测系统的准确性,人们探索了不同的方法。这两个方向有一些相似之处。从抑郁检测方面,France等人已经表明,格式频率的变化是抑郁和自杀倾向的良好指标。Cummings等人利用能量和光谱特征对抑郁症(抑郁症和非抑郁症)进行了二分类,其准确率约为70%。Moore等人通过统计分析(平均值、中位数和标准偏差)音高、能量或说话速度等韵律特征,获得了75%的准确率。就像几乎所有涉及到机器学习技术的领域一样,神经网络在情绪检测中的应用已经变得非常流行。研究人员通常使用DNNs、长短时记忆神经网络(LSTMs)和卷积神经网络(CNNs)。

包括以往AVEC比赛结果在内的多项情绪或减压检测研究的证据表明,通过整合来自多个不同信息源的证据(主要在特征、得分或决策层面),可以提高识别系统的准确性和可靠性。因此,人们最近对通过多模态融合来检测情绪状态,特别是语音和面部模式的检测产生了一些兴趣。Kachele等人提出了一种分级多分类器框架,该框架通过引入不同程度的确定性来自适应地组合输入模式。声音韵律和面部动作单元也被用来检测抑郁。Menget等人提出了一种利用运动历史直方图动态特征从音频和视频中识别抑郁症的多层系统。Nasir等人提出了一种多模态特征,在多分辨率建模和融合框架中捕捉抑郁行为线索。特别地,他们利用Teager基于能量和i-vector的特征,连同音素率和持续时间来预测音频,并在视频中使用多项式参数化的时间变化和从面部地标获得的区域特征。最后,Williamson等人提出了一种很有前途的系统,该系统利用语音、韵律和面部动作单元特征的互补多模态信息来预测抑郁症的严重程度,尽管每种模态的贡献并没有被讨论。

尽管有精密的传感器和强大的技术,但在现实世界场景中开发精确的情绪识别模型仍面临一些挑战。在设计过程中,代表性数据的数量是有限的。假设识别模型是使用从特定条件下提取的有限数量的标记参考样本设计的。虽然许多音视频信号可以被捕获来设计识别模型,但它们需要昂贵的专家注释来创建大规模的数据集来检测唤醒和价态水平。在操作过程中,在操作域(即、受试者的办公室、家庭等),在各种情况下。根据特定的捕捉条件和个体行为,面部和语音表情会随着时间发生显著的动态变化。因此,识别模型并不能代表操作域内模式的类内变化。实际上,任何分布上的变化(无论是域移位还是概念漂移)都会降低系统性能。识别模型需要对特定人员、传感器和计算设备以及操作环境进行校准和调整。

众所周知,随着时间的推移,结合来自不同模式的时空信息可以提高鲁棒性和识别精度。模式也可以根据上下文或语义信息动态组合,例如记录环境中的噪声。例如,可以根据捕获条件在不同的层(分辨率)组合深度学习架构的输出响应。

本文主要研究利用深度学习体系结构来生成精确的混合情感识别系统。例如,Kim等人提出了一种层次化的3级CNN结构来组合多模态源。DNNs被认为是学习具有特定目标的转换序列,以获得将在一个系统中组合的特征。由于特征级和分数级融合不一定能获得较高的精度,因此提出了一种混合方法,通过学习特征和分类器来优化多模态融合。

3 Multimodal Fusion with Deep NNs

本文提出了一种高效的的DNN结构,该结构可以从多个信息源中学习受试者行为与情绪状态之间的映射。对于给定的时序面部和语音模态(包括文本信息)的AVEC SEWA 数据库,本系统旨在从中学习特征表示、分类和融合以对影本进行准确地预测。

该方法的主要内容在于联合学习每一个判别表示,以及它们的分类和融合函数。每个特征子集首先由一个或多个隐藏层独立处理。网络的这一部分学习给定模态的最佳特征表示。然后,每个块的最后隐藏层相互连接到一个或多个完全连接的层,这些层将进行特征的分类和融合。从全局的角度来看,这个网络应该学习如何转换输入特征,从而进行分类和融合,并产生一个全局决策。训练一个混合分类器来组合这些特征可以提高识别系统的整体精度。该架构使用了三种不同的信息来源——音频(语音)、视频(脸部)和文本。有关特性集的详细信息,请参阅[20]。

1)音频特征:声学特征由23个声学LLD组成,如能量、频谱和倒频谱、音高、音质和微韵律特征,每10ms的短帧提取一次。使用一个包含1000个音频单词的编码书,在6秒的时间段里计算分段级声学特征,并创建音频单词的直方图。因此,得到的特征向量有1000维。

2)视频特征:每帧(帧步20ms)提取视频特征,包括三种特征类型:按度数归一化的人脸方向;10个视点的像素坐标;49个面部标志的像素坐标。每个带有独立码本和直方图的BoVW被创建为三个面部特征类型,每个码本的大小为1000,产生一个3000维的节段级特征向量。

3)文本特征:文本特征是基于语音转录的词袋特征表示。该词典包含521个单词,其中只考虑了一元语法(unigram)。在一段6秒的时间内创建的直方图。总的来说,文本包(BoTW)包含521个特征。

3.1 DNN Architecture

所提出的多模态融合的DNN体系结构如图所示。DNN对每个模态使用一对全连接层分别处理音频、视频和文本,以生成和探索同一类型特征之间的相关性。然后,第二阶段(b)合并这些独立层的输出。该层在一个块中接收前一步的输出,并提供一个与模式的本质相关联的全连接层(c)。DNN输出由单个线性神经元(d)产生,作为整个网络的回归值。最后,利用标度模(e)来缩小预测量与标签量之间的差距。不同的标度函数被认为是最好的结果-小数标度,最小最大归一化和标准差标度。最终的预测(f)通过线性函数(前一层的加权和)产生。

E@CC6K8WWH9YLDBW7UAALCT.png

4 Experimental Methodology

RECOLA数据集包括一个训练集和一个开发集(development set)。在本研究的实验中,开发集被分为两个子集。第一个包含从开发集的14份数据中随机选择的5个数据。剩下的数据作为测试集来评估方法的性能。

在SVR实验中,原始提案被用于建立单峰和早期融合系统。后融合方法使用第一个开发子集来优化每个单模系统。使用第二个开发子集对融合函数进行了优化。

在DNN的情况下,更小的开发集被用来确定每个模式的最佳层数和神经元数,以及融合层的神经元数。第二个开发子集用于测试模型。注意,每个情感维度都有自己的体系结构,如表所示。

本次挑战采用的评价指标为CCC,其定义为:

_1VUA87A@T_2AO9_Y9_4_OI.png

4.1 Preprocessing

当应用延迟补偿函数时,CCC评分的结果有显著的提高。图2显示了CCC随延迟的变化。

Y__AZX_RMMEY_8~AES`42H3.png

5 Conclusion and Future Work

本文提出了一种新的DNN结构来预测情绪状态。它融合了三种不同的模态:音频信号、面部特征和音频信号的对话文本。每个模态首先由两个全连接层独立编码,然后合并成一个单一的表示,然后用于估计主体的情绪状态。该网络以端到端方式训练,提供比其他提出的架构更高的CCC。通过对输入特征进行适当的归一化,并对回归的输出进行时间平滑处理,可以期望得到进一步的改进。对于未来的工作,我们计划扩展我们的工作,包括一个基于递归神经网络的最后阶段,它可以学习情绪的时间模式,从而提高整个系统的准确性。此外,我们还将评估从明确训练的卷积神经网络中提取的视觉特征的性能。

-------------本文结束感谢您的阅读-------------