当前位置: 首页 > news >正文

【DE-III】基于细节增强的模态内和模态间交互的视听情感识别

abstract

在视听情感识别(AVER)中,捕捉视频和音频模态之间复杂的时间关系是至关重要的。然而,现有的方法缺乏对局部细节的关注,如视频帧之间的面部状态变化,这会降低特征的可区分性,从而降低识别准确率。

为此,本文提出了一种用于AVER的细节增强的模态内和模态间交互网络(DE-III)。我们引入光流信息,以丰富视频表示的纹理细节,更好地捕捉面部状态的变化。融合模块将光流估计与对应的视频帧相结合以增强面部纹理变化的表示。我们还设计了模态内和模态间特征增强模块,以进一步提高视频和音频表示的丰富性和可区分性。在3个基准数据集上的实验结果表明,无论是在具体情感识别还是连续情感识别方面,本文提出的模型都优于所有现有的情感识别方法。为鼓励进一步研究并确保可复制性,我们将在接受后发布完整代码。

intro

情感感知由于其广泛的应用而吸引了越来越多的研究关注,例如情感计算[32],人机交互[3]和社交机器人[34]。多模态情感识别,特别是集成音频和视频(即AVER),尤其重要,因为它利用了对人类交流至关重要的两种模态中存在的信息。与单模态情感识别不同,多模态情感识别可以从不同的模态获得对同一情感的不同表征

相关文章:

  • 图像修复模型MAT(Mask-Aware Transformer)的训练、推理实战记录
  • 深入掌握Redis主从复制:原理、配置与生产级实践指南
  • python_BeautifulSoup提取html中的信息
  • 4G卡的DTU固件TCP通讯
  • MySQL 从入门到精通
  • C++23 中 constexpr 的重要改动
  • 【每天一个知识点】IPv4(互联网协议版本4)和IPv6(互联网协议版本6)
  • [贪心_7] 最优除法 | 跳跃游戏 II | 加油站
  • Unity | AmplifyShaderEditor插件基础(第三集:颜色的计算)
  • 高效DCDC电源芯片在运动控制器中的应用:设计考量、性能评估与可靠性分析
  • TortoiseGit使用图解
  • Linux进程学习【基本认知】
  • echarts坐标轴数值,生成的数值是0,100,200,300...,怎么不设置min和max的情况下,让坐标轴的数值相隔200
  • TestBrain开源程序是一款集使用AI(如deepseek)大模型自动生成测试用例、和测试用例评审、RAG知识库管理的web平台系统
  • 常见网络安全攻击类型深度剖析(三):DDoS攻击——分类、攻击机制及企业级防御策略
  • 《深入理解计算机系统》阅读笔记之第十一章 网络编程
  • React.memo 和 useMemo
  • 【金仓数据库征文】- 深耕国产数据库优化,筑牢用户体验新高度
  • python源码打包为可执行的exe文件
  • jQuery AJAX、Axios与Fetch
  • 央视曝光假进口保健品:警惕!保税仓发货不等于真进口
  • CSR周刊:李宁打造世界地球日特别活动,珀莱雅发布2024年度可持续发展报告
  • 东北财大“一把手”调整:方红星任校党委书记,汪旭晖任校长
  • 上海发布一组人事任免信息:钱晓、翁轶丛任市数据局副局长
  • 今年五一,贵州一脸“爆相”
  • 男子闲鱼卖手机卷入电诈案后成“网逃”续:警方已排除其作案嫌疑