【论文笔记】多模态情感计算:AI如何分析你的生理情绪(下)

665 阅读2分钟

这是我参与2022首次更文挑战的第41天,活动详情查看:2022首次更文挑战

上期内容:【论文笔记】多模态情感计算:AI如何分析你的生理情绪(上) - 掘金 (juejin.cn)

本文是 ACM MM 2021 的一篇 Workshop 论文,作者来自中国人民大学。
原文链接:Multimodal Fusion Strategies for Physiological-emotion Analysis

Experiments

Uni-modal Results

作者首先测试了每个模态中不同的特征提取方法对应的 CCC 得分。

  • 在语音模态中,ComParE+eGeMAPS 表现最好。这也说明不是维度越高越好,有可能不适合情感任务;
  • 在视觉模态中,OpenFace+OpenPose 取得了最好的效果,作者认为 OpenFace 中已经包含了目光相关的特征,而缺少姿态特征,所以有了这样的结果;
  • 对于文本模态,表现最好的 Word2Vec 特征虽然不能像视听模态的一些特征那样表现良好(CCC 0.3785),但是也算是一种有效的补充;
  • 而生理模态由于维度太低,因此很难单独用来预测情感。

image.png

Multi-modal Results

作者先探究了双模态下 Feature-level Fusion 和 Pred-level Fusion 的表现,在 A+V 下,FF 的表现更好,但在 A+L 下,PF 则更胜一筹;而 A+P 对应的结果则不是很清晰。

image.png

作者又进一步尝试了三模态和四模态下 FF 和 PF 的表现,总体来说,PF 是要优于 FF 的。

image.png

最后,作者得到了最佳的组合:ComParE+eGeMAPS+OpenFace+GazePattern+OpenPose+Word2Vec+PS,用 PF 策略,可以达到 0.6201 的 CCC 得分。

Summary

作者探究了两种多模态融合策略(Feature-level Fusion 和 Pred-level Fusion)来融合语音、视觉、文本和生理信号四个模态的特征用于分析生理情感,做了大量的实验探究了各种不同的特征以及融合策略对性能的影响,相比于之前的工作有一定的性能提升。