基于肢体动作的情感识别

面部表情+ 肢体动作(更多的与表情、声音特征相结合进行识别),识别细微的情感

背景与研究现状

没有面部表情贡献那么大,辅助面部表情进行分析。

  1. 肢体动作的情感表现
  • 肢体动作包含:面部、躯干、四肢、腰身点、线、面上的动作。其中,躯干包含肩、胸、背、腹、臂、腰等;四肢包含臂、手、膝、腿、脚等;
  • 动机:人们运用肢体动作的变换来表达情感,是能够被大众所接受的演绎情感方式。
  • 身体的位置和运动在感兴趣/厌倦和同意/不同意中有连续的表现并且可以识别;
  • 相对于语音和人脸表情变化来说,姿态变化的规律性较难获取,但由于人的姿态变化会使情感表述更加生动, 数据不易获取,表现更难察觉,通过协同,更有利于分析情感状态;
  • 随着对情感计算及智能人机交互研究的不断深入,肢体动作识别也开始作为获取情感的一种手段被用于情感识别中;
  • 数据库更少一些,多模态中的一个辅助模态。
  1. 肢体动作中主要的情感表现
    在这里插入图片描述
  2. 相对于基于语音和表情的情感识别,基于肢体动作情感识别
    的研究工作相对较少,主要包括以下研究单位:(也是融合着一起判断情感)
  • 英国格拉斯哥大学
  • 荷兰蒂尔堡大学
  • 意大利热那亚大学
  • 澳大利亚悉尼科技大学
  1. 英国格拉斯哥大学运动数据库
  • 英国格拉斯哥大学的运动数据库包括格拉斯哥大学和爱丁堡大学的30名学生(15男,15女)表演的敲、扔、举和走 的运动,涉及中性、高兴、生气和悲伤四种情感;
  • 数据规模较少,只有30个样本。
  1. 荷兰蒂尔堡大学的身体姿态数据库
  • 身体姿态图像集包括了50名演员在白色受控背景下表演的七种情感(分别为生气、嫌恶、害怕、高兴、悲伤、惊讶和中性);
  • 演员表演很难诱发出真实情感。
  1. 意大利热那亚Third Summer学院运动数据库
  • 也是离散的情感状态;
  • 数据库包含240个姿势,是GEMEP(Geneva Multimodal Emotion
    Portrayals)数据集的子集。
  • 参与者需要表演八种不同的情感状态,包括生气、失望、感兴趣、愉快、悲伤、愤怒、欢乐和骄傲。参与者用不同的情感表演相同的
    姿势,每个姿势重复三遍。
  1. 澳大利亚悉尼科技大学的人脸和身体姿势双模数据库(协同分析)
  • 包括了**23名被试者(11男,12女)**在蓝色受控背景下表演的中性、不确定、生气、惊讶、害怕、焦急、高兴、厌恶、厌倦、悲伤的面部表情和身体姿势;
  • 样本少,制约了应用。

肢体动作特征

  1. 肢体动作特征
  • 局部二值模式(在表情识别中也有用)
  • Gabor(在表情识别中也有用)
  • 光流法(可以用于面部细微表情检测)
  • 轨迹法
  • EyesWeb平台
  • 光流法、轨迹法会重点介绍(将人视为一个整体)
  1. 基于光流的表示
  • 基于光流的行为表示方法,将人体视为一个整体并以整体的运动来识别人的肢体动作
  • 不需要剪影和轮廓的提取;
  • 易受到目标遮挡和尺寸改变的影响
  1. 基于轨迹的表示方法
  • 基于轨迹的特征表示将肢体动作表示为一组时空轨迹。人的肢体动作被表示为一组平面上或三维空间上的点,对应人体的关节位置
  • 动作过程中关节点的变化通过时空轨迹的方式记录下来,从而构造了相应行为的**三维时空(X-Y-T)或四维时空(X-Y-Z-T)**的表示。
  1. 通过EyesWeb平台提取肢体动作特征
  • 肢体动作特征主要包括身体的运动数量、收缩标志、运动速度、运动加速度、手掌中心流动性等指标;
  • 运动数量:是对检测到的运动数量的度量,基于轮廓运动图像计算得到;由前几帧提取的轮廓之和减去当前帧提取的轮廓
  • 收缩标志:身体收缩和扩展程度的一个度量,采用动力学指标描述运动特征,计算可以包围身体的最小矩形的大小变化过程,在0到1的范围内变化;
  • 运动速度与加速度:体现出各种情感在表达过程中的差异
  • 手掌中心流动性:**当肢体动作的加速度为零的时候,流动性最大,**体现了肢体运动过程的稳定性。

基于肢体动作的情感识别

  1. 常用的肢体动作识别模型包括隐马尔科夫模型、支持向量机、贝叶斯网络、深度学习等方法;
  2. 这里重点介绍针对肢体动作识别的典型方法:
  • 基于分层模型的情感识别
  • 融合面部表情和身体姿态的情感识别
  • 仿生代理交互系统中的肢体动作识别
  • 基于多区域的肢体动作识别
  • 多因子分解处理的肢体动作识别
  1. 基于分层模型的情感识别
  • 从舞蹈运动中识别不同个体的情感
  • 第一层模型对多个传感器数据进行运动检测与运动跟踪
  • 第二层模型获得运动描述子和表情特征
  • 第三层模型进行运动分割、姿势表征和姿势识别
  • 第四层模型采用神经网络、支持向量机等分类技术进行情感识别。
    在这里插入图片描述
  1. 融合面部表情和身体姿态的情感识别
  • 通过面部表情和身体姿态识别焦急、生气、嫌恶、害怕、高兴和不确定六种情感
  • 基于隐马尔可夫模型对面部表情和身体姿势的开始、峰值和释放时段进行了自动检测,并进行双模特征融合和决策融合
  • 在这里插入图片描述
    1. 仿生代理交互系统中的肢体动作识别
  • 能够实时的通过身体姿势识别儿童的情感及其强度;
  • 通过隐马尔可夫模型识别悲伤、挫折、高兴、欢乐等四种情感及其
    强度。
  1. 其它肢体动作的情感识别
  • 分析身体的多个区域对视频进行自动情感鉴别;采用Blob分析提取视频中的头部和手部信息(包括位置、尺寸和角度),并采用延时神经网络和递归神经网络对姿势进行分类;
  • 采用多因子分解处理从姿势中识别情感,他们对运动数据进行多因
    子分解,并应用隐马尔可夫模型识别情感。
  1. 总结
  • 基于肢体动作的情感识别是重要的人类情感非语言交流方式,已经得到越来越多研究者的关注;
  • 针对特征提取与分类方面鲁棒性有待提高,在摄像机移动、遮挡、多目标干扰等条件下性能不理想
  • 需要结合上下文信息和交互场景,提高系统情感理解能力;
  • 身体姿态与表情、语音的协同处理是未来研究热点。

基于生理信号的情感识别

  1. 客观环境、受试者(故意隐藏)等制约情感识别准确度,非接触方式、隐蔽自然的方式,环境嘈杂、光线暗淡、受试者不配合制约识别。

生理信号研究背景与研究现状

  1. 在环境恶劣、环境未知的情况下;生理信号反应信息更客观(生理变化主要由人的自主神经系统和内分泌系统支配,反应的信息更为客观);
  2. 这种数据不易获取,需要可穿戴设备帮助采取。
  3. 采集皮肤电、机电、脑电等信号不易获得,且存在准确率等问题,成本也很高;
  4. 生理信号主要包括皮肤电、肌电、血压、脑电、呼吸、脉搏、心电图等。
  5. 设备:
  • 轻便式心电仪:该仪器十分小巧,使用者可以装入口袋随身携带,使用时只需要用两只拇指按住传感器可实时记录心电信息;
  • 情感监视手表:该手表可以实时监控使用者的心率、位置、体温和皮肤湿度,并通过蓝牙耳机技术将数据传给控制台。
  • 大型穿戴设备,采集的参数更准确,皮肤电、机电对情感识别准确率更重要些。
  1. 生理与心理物理上对应关系

在这里插入图片描述
如: 通过带上多导仪,然后通过设立合理的问题范式,问受试者,查看其身体参数的变化,皮肤电与受试者的压力紧张等情绪有较为明显的变化。现在也有通过微表情,声音的变化来确定受试者的紧张程度。

  1. 美国麻省理工学院:Picard教授及其合作者率先从生理信号中提取特征模式进行情感状态识别方面的研究,并且证明从生理信号中提取特征模式来进行情感识别是可行的。个体生理信号会存在延时性,也受时间因素的影响,但音视频受这些因素影响较少。
  2. 德国奥格斯堡大学:研究基于心电信号、肌电信号、皮肤电导信号和呼吸信号的情感识别。(在顶会上也会发表数据,也研究表情等情感识别)
  3. 美国加州大学:研究基于脑电信号(带上脑电帽,这种不是通过对话来采集,而是通过诱发的信号)的情感识别。
  4. 数据库(依赖于可穿戴设备;受限于何时何地,受试者限制;跨受试者的情感识别性能要低于受试内的情感识别;生理信号情感识别很依赖于受试者,这也是一个瓶颈)
  • MIT数据库
  • 包含4种类型的生理信号传感器所获得的数据:皮肤电导传感器、光学体积描记术、呼吸传感器和肌肉电传感器;
  • 请一位女演员作为被试,根据设计好的提示表达出8种情感状态(平静、生气、厌恶、悲哀、喜爱、浪漫的爱、愉快和尊敬);
  • 被试每进行一个实验都要进行自我评估,包括愉悦度(离散型了若干个等级)和唤醒度
  • 该实验记录了32天的数据,每种情绪状况的生理信号记录时间为3分钟左右,最终选择20天有效数据。
  1. DEAP数据集(名气比较大,可以基于此做多模态的实验)
  • DEAP数据集(上海交大发布):
  • 包括脑电信号、8种外周生理信号以及部分被试人的面部视频(没有语音信号,发出声音可能会对脑电信号发生破坏,没有剧烈的眼动、头动);
  • 脑电信号采集使用32导的电极帽8种外围生理信号涉及肌电、眼电、皮肤电(采集时,也观察脑电哪里的信号与皮肤电有联系)、血压、呼吸等;脑电信号是有延时的,从看到到产生反应是有时间限制的。
  • 音乐视频作为情绪激发源,每名被试观看40段长度为1分钟的音乐视频,每一段音乐视频的情绪激发都作为一个单独实验;
  • 被试每进行一个实验都要进行自我评估,包括愉悦度、唤醒度、支配度、喜爱程度和熟悉程度。(最多量级3位数,还未达到4位,在受试内准确率达90%,但在受试者间准确率只有70%,脑电数据采集需要的时间也较长)
  1. 奥格斯堡大学情绪生理信号数据集
  • 采用四首可以唤醒不同情绪的歌曲作为情绪唤醒的素材,唤醒的情绪分别为愉悦、愤怒、悲伤和高兴;
  • 共采集四种生理信号,分别是心电、肌电、皮肤电和呼吸信号
  • 每种情绪状态收集了25份样本,每份样本时长为20秒。

生理信号特征

  1. 皮肤电反应信号
  • 皮肤电反应信号是皮肤传导性的指示;
  • 皮肤电位可以随视、听、触、痛等刺激以及情绪波动而变化,这一过程称为皮肤电反应。
  1. 皮肤电反应基础水平与个性特征相关
  • 基础水平越高者,越内向、紧张、焦虑不安、情绪不稳定、反应过分敏感;
  • 基础水平越低者,越开朗、外向,心态比较平衡,自信、心理适应越好。
  1. 皮肤电反应基础水平的主要影响因素:
  • 觉醒水平:在正常温度范围内,手掌和脚掌特别能反映唤醒水平。因此,这两个部位适合测量皮肤电;
  • 温度:身体皮肤主要反映身体的温度调节机制。当气温很高、身体需要散热时,皮肤出汗,电水平高;而气温较低,身体需要保存热量时,皮肤电水平较低;
  • 活动:开始从事某一活动时,皮肤电水平将相应的升高到一个较高的水平;而在休息时,皮肤电水平降低。
  1. 在一般情况下,皮肤电流运动具有固定的电阻参数。但在外部刺激或情绪刺激作用下,皮肤电阻下降,导电电流增加
  2. 多指标互相参照的情况下,皮肤电阻变化可以被确定为情绪变化的有效指标
  3. 皮肤电反应的生理信号特征
  • 主要包括均值、方差、一阶差分均值等统计特征;
  • 皮肤电反应的活动特性:通过平滑处理后的一阶差分时序序列可以定义皮肤电反应的活动特性;例如,通过序列中两次通过零点判断活动特性。
  1. 肌电信号
  • 肌电图是肌肉产生的生理电信号的记录。可以通过放置在皮肤上的表面电极来测量,也可以利用针电极经皮肤插入肌肉来测量
  • 肌电图的幅度与电极放置部位有关,范围大约为50μV-5mV,带宽为2-500Hz;
  • 皮肤电和肌电都是属于生理电信号,可以很好的反应被试在不同情绪下的电信号反应。这两种信号的采集设备通常是一样的
  • 多导仪来采集。
  1. 随着情绪状态的变化,呼吸系统的活动在速度和深度上会有所改变;
  2. 对剧痛的情绪反应往往会使呼吸加深加快;突然惊恐时,呼吸会发生临时中断;狂喜或悲痛时,会发生呼吸痉挛现象。也会反映出温度的变化,如无触碰条件下测温,呼气与吸气时也会有温度的变化。
  3. 呼吸信号的生理指标主要有呼吸频率呼吸幅度
  • 呼吸频率:呼吸频率是描述単位时问内呼吸的次数,受到各种内源性和外源性因素的影响;
  • 呼吸幅度:呼吸幅度是指人体胸廓内气体压力随着呼吸而发生的变化;
  • 当人处于兴奋状态时,呼吸频率和幅度会同时加快;
  • 当人处于抑制状态时,呼吸频率和幅度会同时减小。
  1. 心电信号是心脏搏动时在人体表面形成的电位差,通过分析心电信号,可以了解心脏的搏动状态,在每一个心动周期中,心脏各部分兴奋过程中出现的电变化的方向、途径、次序和时间都有一定的规律。

  2. 心率间期信号特征

  • 描述两次连续心跳之间的变化特征,它的变化主要是通过交感和副交感神经进行调整的;
  • 心率间期特征可以通过相邻差的均方根、不同频率范围的功率、低频功率与高频功率之比表示。
  1. 脉搏反映了人体心率的变化,是人体的一项重要生理指标。因为脉搏易测量,所以常用于医学检测身体状况;医生会在体检或紧急情况下检测脉搏,就可知一个人身体内部的生理疾病、情绪问题。例如,当个体体验恐惧不安的情绪时,就出汗,四肢冰凉。
  2. 脑电情感相关特征
  • 大脑各部位分工明确,额叶主要负责面部表情的活动及肢体运动;
  • 顶叶主要与躯体的感觉有关,如嗅觉、声音等;
  • 枕叶是视觉处理的中心;
  • 而颞叶则与人的听觉功能有关。
  • 脑电是人类大脑神经活动的外在表现,实时记录着脑神经信号的变化过程
  • 脑电因其产生机理不同被分为两大类,即自发式脑电和诱发式脑电(目前的脑电采用都是通过不同刺激材料来诱发,如视觉的、嗅觉的)
  • 在这里插入图片描述
  • 采集30S,休息一段时间
  • 大多数情感与脑电信号存在着某些密切的关系,且它们对应的信号峰值、频率各不相同;
  • 不同的脑区对情感往往会做出不同反应:
  • 个体处在厌恶、恐惧等与回避动机相关的情感状态时,右侧额叶相对左侧额叶有明显的激活现象
  • 个体处于高兴等与接近动机相关的情感状态时,左侧额叶相对右侧额叶的激活程度高;
  • 涉及保密协议,涉及伦理问题;
  • 采集成本高;
  • 情感的愉悦度在前额区存在着偏侧化现象(或不对称),并且唤醒度激活程度与左右两个前额区的活跃度有着某种关联;
  • 如32导,32种脑电信号;
  • 在音乐刺激的情况下,脑电信号中的θ节律会有较为明显的增强迹象
  • 上述研究成果揭示了人的大脑与情感之间的联系,并且能够从脑波活动中推测出情感信息
  1. 脑电信号的时域特征
  • ERP特征:当对被试外加一种特定的刺激时,在刺激给予的瞬间或刺激撤销的瞬间,脑区所产生的电位变化;不同情感刺激下电位变化的延迟不同
  • 统计特征:主要指通过统计的方法计算的相关特征信息,包括:能量统计特征、均值特征(消除受试者一些其他情况的干扰)、标准差特征;
  • Hjorth特征:反映出脑电信号活跃度、变化度、复杂度等因素;
  1. 脑电信号的频域特征
  • 常见的频域特征包括功率谱、功率谱密度等,上述特征提取通常建立在功率谱估计基础上;
  • 波段能量特征:将脑电信号从时域转换到频域,然后将原有的脑电原始信号划分为不同的波段数据,按照不同的频率波段进行特征提取。
  1. 脑电信号时域-频域特征
  • 希尔伯特-黄谱:通过经验模态分解将原来的信号分成多层次的本征函数,不同层次的本征函数对应原始信号在不同频率范围内的分量,相对于频域特征在抗噪方面有优势;
  1. 脑网络特征:脑区分解成不同断,脑电帽导连之间的相互关系,输入懂到图神经网络中。导连与导连的连线相当于图中的边。
  2. 功能核磁: 设备与采集脑电类似,价格与导连数相关,这方面的研究比较少,成本高。对受试者要求更高。

基于生理信号的情感识别

受限于受试体的限制。

  1. 早期的基于生理信号的情感识别主要采用支持向量机、随机森林、决策树等方法;基于深度学习的生理信号情感识别近年来不断得到尝试
  2. 典型方法:
  • 基于支持向量机的生理信号情感识别
  • 受限波尔兹曼机-深度置信网络(RBM-DBN)
  • 长短时记忆递归神经网络(LSTM-RNN)
  1. 基于支持向量机的生理信号情感识别
  • 利用支持向量机处理小样本高维数据的优势,融合径向基核、多项式核等多核的识别结果,提高生理信号情感识别性能;
  • 在这里插入图片描述
  1. 基于RBM-DBN的生理信号情感识别:针对生理信号数据资源受限的问题,首先通过受限玻尔兹曼机进行逐层预训练,然后采用BP神经网络对模型参数进行细调
    在这里插入图片描述
  2. 基于LSTM-RNN的生理信号情感识别:生理信号的是一种时序信号,使用长短时记忆递归神经网络能够有效的捕获上下文时序信息,通过融合时序信息提高情感识别分类性能
    在这里插入图片描述
  3. 基于非接触式的生理信号情感识别
  • 采用非接触式生理信号识别人类情感始于21世纪初的美国;
  • Honeywell实验室的研究成果表明,当人突然遭受惊吓时,眼眶的温度明显高于其它部位
  • 通过实验证实,通过热成像技术对紧张情感的识别率可达84%
  • 面部的各个区域温度变化是由于面部相应区域的血流量的变化造成的;在环境温度恒定的情况下,血流量越大则温度越高,面部血流变化是一种生理变化;
  • 首先提取每帧视频中面部的热像信息;
  • 利用热像图可以计算面部区域的温度
  • 通过生物热传递模型可以将体表温度转换为血流量变化
  • 通过血流量变化分析个体是否紧张;
  1. 总结:
  • 生理信号不易伪装,能够相对客观的反应个体的情感状态;
  • 生理信号数据资源受限,需要建立高质量的生理信号数据库;
  • 需要结合生理信号探索基于认知机制的情感模型
  • 基于非接触式的生理信号情感识别是未来的研究热点

参考:国科大-情感计算课件

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐