【论文笔记】多模态情感计算:AI如何分析你的生理情绪(上)

1,610 阅读3分钟

这是我参与2022首次更文挑战的第40天,活动详情查看:2022首次更文挑战

本文是 ACM MM 2021 的一篇 Workshop 论文,作者来自中国人民大学。
原文链接:Multimodal Fusion Strategies for Physiological-emotion Analysis

Motivation

生理情绪是人真实的情绪状态,不会因为人有意识地掩盖情绪而改变。这篇论文面向 2021 年 MuSe-Physio 子挑战——一个多模态情感分析任务,目的是在高度紧张的自由演讲场景下,利用组合的视听信号和受试者的皮肤电反应预测生理情绪。而过去的多模态情感分析主要利用声音、文本和视觉信息,但这些信息对于不同的人差别很大,而且容易被掩饰。从传感器收集的生理信号可以揭示人类的真实情绪状态,比如皮肤的导电性(EDA),皮肤出汗导电性会增加。因此,作者希望设计一种多模态融合策略来综合利用这些信息进行情感分析。

image.png

Method

作者主要利用语音、视觉、文本和生理四个模态的信息,先用不同的方法从这些模态中提取出各类特征,然后提出了两种多模态融合策略:Feature-level 融合和 Pred-level 融合。在 Feature-level 融合策略中,作者将所有类型的多模态特征连接起来,并使用LSTM来捕获长期的时间信息;在 Pre-level 融合策略中,作者提出了一种两阶段的训练策略。

Model

模型整体结构如下,Xj 为视频的第 j 段,y 为情绪标签,A, V, L, P 分别指音频、视觉、语言和生理信号四种模式。

image.png

Multi-modal Features

语音中的发音、语调和语气,面部表情,以及视觉中的肢体动作,语音的文字内容都可以在一定程度上表达说话者的内心情感。低级特征和高级特征都很重要。作者提取了四种特征作为输入,如下:

  • Text Features:作者用预训练语言模型来从文本中提取特征,然后把视频段内的这些词嵌入进行平均作为段级特征;
  • Acoustic Features:作者用几个不同的预训练模型如 DeepSpectrum、Wav2Vec 等来提取音频的低层次情感特征和声学特征,然后对这些特征分别进行下采样得到段级特征;
  • Visual Features:作者用 DenseFace 和 VGGFace 来捕捉说话人的面部表情特征作为高级特征,用 OpenFace、GazePattern和 OpenPose 来分别提取面部动作单元(FAU)、目光和头部姿势作为低级面部表情特征,对于 OpenPose 用 500ms 内每一帧的坐标的平均值作为段级特征;
  • Physiological Feature:对于生理特征,包括心率(BPM)、呼吸(RESP)和心电图(ECG),作者通过 Z-score 归一化将这些特征归一化。

Feature-level Fusion

对于不同模态的输入特征,作者先将他们拼接在一起,然后投影到一个嵌入空间,然后用 LSTM 来提取情绪信息的当前上下文,用 MSE 作为 loss 来训练。

image.png

Pred-level Fusion

第一阶段,在每个模态特征集上独立训练模型。在第二阶段,作者将每个模态的预测值串联起来,并将其发送到一个独立的 LSTM 来捕捉模态间的信息。注意两次融合是分别训练的。

image.png


那么结果怎么样呢?下期见分晓 (●'◡'●)~

下期内容:【论文笔记】多模态情感计算:AI如何分析你的生理情绪(下) - 掘金 (juejin.cn)