MuSe-2022:基于多标签图卷积网络和动态表情识别Transformer的情感反应分析


文章题目:Emotional Reaction Analysis based on Multi-Label Graph Convolutional Networks and Dynamic Facial Expression Recognition Transformer
文章来源:https://dl.acm.org/doi/10.1145/3551876.3554810

Background:
文章提出的模型是对MuSe2022中的MuSe-reaction子挑战的解决方案。
该挑战具体内容:
MuSe-Reaction: predicting the intensity of seven emotions (Adoration, Amusement, Anxiety, Disgust, Empathic Pain, Fear, Surprise). Official baseline : .2801 mean Pearson's correlation over all seven classes.
即预测给定七种情绪的强度,baseline为0.2801的七类别平均皮尔逊相关系数。
本篇文章设计了一个端到端的模型,由用于动态面部表示学习的时空Transformer和用于情感依赖建模的多标签图卷积网络组成。最终在挑战的测试集上取得了0.3375的平均皮尔逊系数。

Introduction:
目标:在该挑战中,一个人对于刺激的反应会被记录下来。目标是建立一个模型来预测她的情感反应值,包含上述七种情感。
与传统的FER任务不同的是,MuSe-Reaction子挑战旨在预测每个样本的多个情绪标签,需要考虑多标签关系。此前工作采用概率图模型(probabilistic graph model)和循环神经网络(RNN)显式建模标签依赖关系,通过注意力机制隐式建模标签相关性。
这篇文章对于MuSe-Reaction子挑战的解决方案为:将MuSe2022提供的原始人脸图片输入Former-DFER-Face(包含卷积空间Transformer和时间序列Transformer),然后在情感反应标签上构建有向图(其中每个情绪表示为一个节点,利用节点间构建的边来捕获不同情绪的关系)。利用图卷积网络(GCN)将标签图映射为一组相互依赖的情感分类器,最后利用分类器得到多个情感标签的回归值。

Proposed Method:

模型包含用于时空表示学习的Former-DFER-Face和用于情感反应依赖建模的ML-GCN。

Former-DFER-Face主要由一个卷积空间Transformer (CS-Former)和一个时间Transformer (T-Former)组成。从原始视频序列中动态采样的定长人脸表情序列作为模型的输入。采用Former-DFER[1]中的方法获取定长的视频序列。CS-Former以T帧为输入,从每一帧中提取人脸空间特征。
CS-Former由3部分组成:四层卷积块,N个空间编码器和conv5。由conv1到conv4组成的卷积块,用于提取局部空间特征构建特征图。为了将特征图输入到空间编码器中,我们将每个特征图重构,加入token、位置信息。空间编码器具有良好的全局建模能力,能够对全局空间交互关系进行建模。每个空间编码器由一个多头自注意力和前馈网络组成。最后使用卷积块conv5对人脸特征进行细化。这里文章中的框架用Resnet50中的conv1 to conv4取代CS-Fromer中的conv1 to conv4,在大规模人脸识别数据集上进行了预训练,并在常用的面部表情数据集FER+上进行了微调。
T-Former由M个时间编码器组成。CS-Former输出经过时空位置嵌入后输入到时间编码器中。与CS-Former不同,在序列的第一个位置添加一个特殊的可学习向量x以表示可学习标记。

从上图中可以看出,各情感标签之间彼此不是独立的。为了捕获多标签关系,实验者们先根据[2]中的方法,构建了一个基于情感标签的有向图。其中每个节点表示七种情绪反应中的一种。利用edges捕获不同情绪之间的关系,经过GCN后,将每个节点的最终输出作为分类器进行相应的情感反应。最后,在这些分类器的帮助下得到预测结果。

Dataset:
Hume-Reaction数据集用于MuSe-2022[3]中的MuSe-Reaction子挑战。该数据集包含超过70小时的音频和视频数据,来自2222名来自美国(1138)和南非(1084)的受试者,年龄从18.5~ 49.0岁。当他们对广泛的情感唤起刺激[4]做出反应时,每个样本都被标注了从1到100的7种情绪反应的强度。7种情绪反应包括:崇拜、娱乐、焦虑、厌恶、共情痛苦、恐惧和惊讶。训练、开发和测试集的详细信息如表1所示。在这篇文章中,使用MuSe2022[3]提供的人脸作为输入。

Discussions:
文章对多种声学和视觉特征对基线模型BiLSTM的影响进行了探讨。在声学特征方面,本文研究了MuSe 2022提供的eGeMAPS[5]和DeepSpectrum。利用几个在大规模音频数据集上预训练的监督/无监督模型来提取高级声学表示,包括PANNs和wAV2vec。在视觉特征方面,采用MuSe 2022提供的FAUs和VGGFace2,还利用Emonet[6]和ResNetFace[7]来提取视觉表示。实验结果如下:

我们发现视觉特征的性能明显优于声学特征。然而,两种特征融合的结果比视觉单模态结果差。作者发现,在大多数视频中,受试者是沉默的,而在其他视频中,声音中包含的信息不足以预测情绪反应。因此,其余实验仅利用视觉模态。

Results & Ablation:
所提方法在测试集MuSe-Reaction上的平均Pearson相关系数为0.3375,在验证集上的平均Pearson相关系数为0.3456。

将ResNet18替换为conv1~conv4到ResNet50是有帮助的。原因在于ResNet50增加了对情感信息建模的能力。进一步发现,用ResNet50替换卷积块的效果不如用ResNet50中的conv1~conv4,这表明采用Transformer架构的可行性。同时,实验结果也表明ML-GCN也能提高识别性能。ML-GCN捕捉了不同情绪反应之间的关系。与负相关的情绪反应相比,正相关的情绪反应同时具有高预测值的概率更高。

Reference:
[1] Zengqun Zhao and Oingshan Liu. 2021. Former-DFER: Dynamic Facial Expression Recognition Transformer. In Proceedings of the 29th ACM International Conference on Multimedia. 1553-1561.
[2] Z. M. Chen, X. S. Wei, P. Wang, and Y. Guo. 2019. Multi-Label Image Recognition With Graph Convolutional Networks. In 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
[3] Lukas Christ, Shahin Amiriparian, Alice Baird, Panagiotis Tzirakis, AlexanderKathan, Niklas Müller, Lukas Stappen, Eva-Maria Meßner, Andreas König, AlanCowen, Erik Cambria, and Björn W. Schuller. 2022. The MuSe 2022 Multimodal Sentiment Analysis Challenge: Humor, Emotional Reactions, and Stress. In Proceedings of the 3rd Multimodal Sentiment Analysis Challenge. Association for Computing Machinery, Lisbon, Portugal. Workshop held at ACM Multimedia2022, to appear.
[4] Alan S. Cowen and Dacher Keltner. 2017. Self-report captures 27 distinct categories of emotion bridged by continuous gradients. Proceedings of the National Academy of Sciences of the United States of America (2017), E7900.
[5] Florian Eyben, Klaus R Scherer, Björn W Schuller, Johan Sundberg, ElisabethAndré, Carlos Busso, Laurence Y Devillers, Julien Epps, Petri Laukka, Shrikanth SNarayanan, et al. 2015. The Geneva minimalistic acoustic parameter set (GeMAPS) for voice research and affective computing. IEEE Transactions on Affective Computing 7, 2 (2015), 190-202.
[6] Antoine Toisoul, Jean Kossaifi, Adrian Bulat, Georgios Tzimiropoulos, and MajaPantic. 2021. Estimation of continuous valence and arousal levels from faces in naturalistic conditions. Nature Machine Intelligence 3, 1 (2021), 42-50.
[7] Samuel Albanie, Arsha Nagrani, Andrea Vedaldi, and Andrew Zisserman. 2018.Emotion recognition in speech using cross-modal transfer in the wild. In Proceedings ofthe 26th ACM international conference on Multimedia. 292-301.