EEGformer: A transformer–based brain activity classification method using EEG signal

开头先说一段闲话  与文章内容无关  时间紧  请跳过!!!
主要就是记录一下自己写博客的一些原因吧   本来不想写关于这篇文章的博客的  不是说这篇文章的内容不够好  相反我觉得这篇文章
对于EEG信号的处理方式还是让我耳目一新的  主要是今天组会汇报这篇文章的时候  自己因为很多原因没有汇报好  感觉很多自己理解本篇文章的内容 但是
在向同学和老师们汇报的时候却没有找到合适的表达方式  大家肯定都听的云里雾里的  所以我觉得自己很有必要在着向着大家再重新梳理一遍自己对于这篇
文章的理解  也算是我自己给我自己的一次机会  希望自己能在下一次的组会中能够更加流畅的表达自己的想法  嘻嘻嘻嘻嘻

一、研究目的

  本文主要介绍了一种基于Transformer架构的脑电图(EEG)分析模型,名为EEGformer。该模型旨在以一种统一的方法捕捉EEG信号的特征。可以理解为,研究者设计了一种特征提取机制,它并非针对某一特定任务量身定制,而是根据EEG信号的内在特性,开发了一种通用的特征提取方法。这种方法具有广泛的适用性,能够为多种EEG分析任务提供支持。

二、研究背景

  作者在这篇文章中提出了一个很重要的观点,就是EEG信号它具有三种特征,分别是时间性特征、空间性特征和同步性特征。


Question One: 如何理解EEG信号的时间性特征、空间性特征和同步性特征呢?

空间性特征

  这里我们可以用视觉的形成过程来举一个例子
在这里插入图片描述
  早期视觉皮层(EVC)主要负责处理基本视觉信息,包括检测边缘、颜色、形状和运动等简单特征[172]。具体来说,初级视觉皮层 V1 和次级视觉皮层 V2 处理基本视觉信息,以识别简单的几何图案,例如边缘和方向。 V3 专门研究运动感知和运动相关视觉刺激的处理。 V4 主要与颜色和形状处理相关,有助于颜色感知和物体识别。中颞区 (MT),也称为 V5,对于运动处理至关重要,尤其是物体运动和运动方向的检测。枕面部区域(OFA)专门处理面部特征,参与面部感知的早期阶段。

  较高视觉皮层(HVC)区域涉及更高级的视觉处理任务,例如物体识别、面部识别、场景感知以及复杂视觉信息的整合[60]。具体来说,枕外侧复合体(LOC)与物体识别的复杂视觉形状和结构的感知相关。梭形面部区域(FFA)专门用于识别和处理面部。海马旁区域(PPA)负责识别场景和空间布局。与 PPA 类似,枕骨区域 (OPA) 处理场景和地点。压后皮层 (RSC) 参与空间导航、记忆和场景处理,有助于创建环境心理地图。顶内外侧区 (LIP) 与背侧视觉流相关,侧重于空间感知、注意力和眼球运动控制。颞顶交界处 (TPJ) 涉及多种功能,包括社会认知、观点采择和注意力。

  (这部分的内容来自Brain-Conditional Multimodal Synthesis: A Survey and Taxonomy这篇论文)

时间性特征

在这里插入图片描述

  (EEG(脑电图)信号是一种时序数据,它记录了大脑在时间维度上的电活动。理解EEG信号的时间性特征,意味着要分析和解释这些电活动随时间变化的模式和规律。以下是一些可以从EEG信号的时间轴上提炼出的关键信息:

  • 波形模式:EEG信号的波形可以反映大脑的不同状态和活动。例如,α波、β波、θ波和δ波等,它们在频率和振幅上各有特点,与大脑的不同功能状态相关联。

  • 频率成分:EEG信号的频率分析可以揭示大脑活动的动态变化。通过傅里叶变换等方法,可以将时域信号转换到频域,分析不同频率成分的强度和变化。

  • 时序模式:EEG信号在时间序列中可能存在特定的模式,如周期性波动、突发活动或特定事件相关的响应。这些模式可能与认知过程、情感状态或病理条件有关。

  • 相位关系:EEG信号在不同脑区之间的相位关系可以提供大脑不同区域之间相互作用的信息。例如,相位同步可能表明某些脑区在特定任务或状态下的协同工作。

  • 事件相关电位(ERP):特定刺激或事件引发的EEG信号变化,如P300波,可以用于研究感知、注意力和记忆等认知功能。

  • 时间-频率分析:通过小波变换等方法,可以同时分析EEG信号的时间和频率特性,揭示信号在不同时间点的频率成分变化。

  • 动态变化:EEG信号随时间的动态变化可以反映大脑对内外环境变化的适应性,如在执行任务、情绪变化或疾病状态下的调整。

  • 非线性动态:EEG信号可能表现出复杂的非线性动态特性,如混沌现象,这些特性可以提供对大脑复杂性的理解。

同步性特征
在这里插入图片描述
  EEG(脑电图)同步性特征主要指的是在不同脑区之间,神经活动在时间上的一种协调性。这种同步性可以反映大脑在进行某些特定功能或认知活动时,不同脑区间是如何协同工作的。EEG同步性特征的分析有助于我们理解大脑的工作原理以及不同脑区之间的信息交流方式。

  EEG信号的同步性特征可以从多个角度进行分析:

  • 时间尺度的同步性:大脑在进行某些认知任务时,不同脑区可能会在特定的时间点显示出同步的神经活动,这反映了大脑在处理信息时的协调性

  • 频域的同步性:在特定的频率范围内(如α波、β波、θ波、δ波),不同脑区的EEG信号可能会显示出同步的振荡模式,这种同步振荡可能与特定的认知功能相关联。

  • 相位同步:即使两个脑区的EEG信号在幅值上不完全相同,它们在相位上也可能表现出同步性。这种相位同步可以揭示大脑中不同区域之间在神经活动上的细微联系

  • 非线性同步性:大脑的神经活动往往是非线性和复杂的,通过非线性分析方法,如同步似然(Synchronization Likelihood)等,可以揭示EEG信号之间更深层次的同步性特征

  • 功能网络的同步性:通过构建基于EEG信号的复杂脑网络,可以分析网络中节点(脑区)之间的同步性,从而了解大脑功能网络的拓扑结构和动态特性


三、模型框架及技术路线

  为了分析脑电图(EEG)信号并捕捉其时间性、区域性和同步性的特征,作者设计了一种名为EEGformer的基于Transformer的模型。这个模型能够综合地处理EEG数据。首先,我们使用一维卷积神经网络(1DCNN)自动提取每个EEG通道的特征。然后,这些特征被送入EEGformer模型中,该模型由三个主要部分组成,它们依次是区域Transformer、同步Transformer和时间Transformer,共同工作以捕获EEG信号的关键特征。模型的大致框架如下图所示:
在这里插入图片描述

1DCNN

在这里插入图片描述

1DCNN 采用多个深度卷积来提取 EEG 通道特征并生成 3D 特征图,具体来说就是EEG片段被表示为二维矩阵 S × L S\times L S×L,其中 S 是通道数,L 是片段长度。输入1DCNN前进行去趋势和归一化处理,得到 x ∈ R S × L x\in \mathbb{R}^{S\times L} xRS×L 。1DCNN通过三个深度卷积层处理数据,生成大小为 x ∈ R S × C × L e x\in \mathbb{R}^{S\times C \times Le} xRS×C×Le 的三维特征矩阵,其中 C 是卷积核数量,Le是输出特征长度。每层卷积使用尺寸为 1×10 的滤波器,步长为1,数量为120。输出特征矩阵用三维坐标轴表示时间、空间和卷积信息。最终,1DCNN模块的输出被输入到EEGformer编码器进行特征统一编码,然后通过解码器推断结果。


Question Two: 怎么理解detrend这个操作

  detrend这个操作应该叫做去基线操作,为了消除自发脑电波(维持人体正常生理活动产生的脑电波)导致的脑电噪声,分段数据各减去一个平均基线值(比如以0时刻数据前的均值作为均值)

detrend的操作可能还有其他方法  暂时在这先画个大饼  看到有其他的办法的话  我会在这里做更新的

EEGformer

在这里插入图片描述
  EEGformer编码器是对一维卷积神经网络(1DCNN)输出的特征进行一致性的精细化处理,以捕捉区域性、时序性和同步性特征。如图2所示,EEGformer编码串行的结构设计,依次对EEG信号的特征进行深入加工。具体来说,时间特征、区域特征和同步特征分别由时间Transformer、区域Transformer和同步Transformer来处理。1DCNN模块产生的输出 z 3 z_3 z3,其维度为 R S × C × L e \mathbb{R}^{S\times C\times Le} RS×C×Le在图中以绿色矩形框内的黑色圆点来表示。(这里的Transformer的基本架构和原始的Transformer的架构是一样的 没有做什么变化 做的更改是针对于Transformer的输入进行了一系列的改造 比如这里还加入了Class Token)


Question Three: 最近看的文章,在EEG最初始的Embedding都有加入一系列不同的token,但是Token具体的运作方式是怎么样的呢?

这里我也暂时先画一个大饼,我会在下一篇的文章解读中,详细的讲一下这个tokens的运作方式  
因为下一篇的论文在EEG信号的Embedding中加入了许多中不同类型的tokens,所以我想理解这一块内容可能比较重要
下篇文章我会具体补充

Regional transformer module

在这里插入图片描述

在这里插入图片描述
  在探讨“区域变压器模块”(Regional Transformer Module)的意义时,我们可以将其与原始Transformer模型的设计理念联系起来。最初,Transformer模型的引入是为了通过其注意力机制捕捉序列数据中的长距离依赖性,也就是我们通常所说的上下文关系。这种机制在处理文本数据时特别有效,因为文本中各个元素之间存在一定的顺序关系。

  在本文中,作者将这种理念应用于EEG数据分析,将输入数据从传统的时序数据转变为由不同通道数据片段组成的“patches”。这样的转换使得模型关注的焦点从文本中的上下文关系,转移到了EEG数据中不同通道之间的关系,即本文所强调的EEG信号的空间性特征。

Synchronous transformer module / Temporal transformer module

在这里插入图片描述
  同步Transformer模块的输入表示为 z 4 z_4 z4,维度为 S × L e × C S \times Le \times C S×Le×C。该三维矩阵z4首先沿卷积特征维度分割为C个二维子矩阵。每个子矩阵表示为 X i s y n X^{syn}_i Xisyn,维度为 S × D S \times D S×D。向量 X ( i , s ) s y n X^{syn}_{(i,s)} X(i,s)syn X i s y n X^{syn}_i Xisyn中按空间维度依次取出,并输入线性映射模块。 X ( i , s ) s y n X^{syn}_{(i,s)} X(i,s)syn被定义为一个patch,通过一个可学习的矩阵 M M M(维度为 D × D D \times D D×D)进行线性映射,生成潜在向量 z ( i , s ) ( s y n , 0 ) z^{(syn,0)}_{(i,s)} z(i,s)(syn,0),维度为D。
  经过Regional transformer module后原来的 L e Le Le(表示EEG信号长度特征)变成了Transformer从中提取的 D D D维空间特征,这里又按卷积信息再对输入的信息进行提取特征(这里的patch变成了 X ( i , s ) s y n X^{syn}_{(i,s)} X(i,s)syn,即对原来提取的空间特征再Transformer提取了一遍,于是就有了同一时间段不同空间之间的同步特征了)
在这里插入图片描述
  时间Transformer模块的输入是一个 C × S × D C \times S \times D C×S×D的三维矩阵。为了减少计算量,我们将时间维度 D D D压缩为 M M M,生成 M M M S × C S × C S×C的二维子矩阵。将这些子矩阵拼接为 M × S × C M × S × C M×S×C的矩阵后,每个子矩阵展平成一个向量,然后通过线性映射得到 D D D维的潜在向量。
  最后一个时间Transformer的输入按时间维度进行切分,变成了不同时间段的各通道卷积信息的集合,然后再将这些特征直接展开连在一起进行Transformer的特征提取模块,于是就有了时间性特征

Decoder

  这部分的信息就不是论文的重点了,可以看看PPT中做的介绍
在这里插入图片描述

四、感想

  其实这篇论文中提出的EEG模型(以后读的论文提出的方法)也不一定会在自己的研究方向中会有很好的结果,但是我觉得更重要的理解去其他思考的方式,也许对自己以后做实验的思路或者灵感来源是挺重要的,当然也可以把这个论文中提出的方法当作是自己的技术储备(这么说不知道合不合适 有种拿来主义的感觉 但是我觉得作为论文的发表者不就是希望自己的成果被更多人使用和认可吗 所以应该问题不大)。然后在今天的组会汇报论文的时候,其实自己也有很大的一个不足之处,就是我看论文,我从来不看实验分析模块,因为我觉得论文能发出来,就有人帮我看好了这篇文章提出的方法是好的,效果还不错的。但是今天发现这样的做法其实还是有问题的。看实验分析其实话可以很好的去扩展一下进行同样研究目的的人们提出来的其他方法,同时也可以在一定程度上去引导我们以后的指导方向。所以还是要坚持把实验分析读完,他既然存在,就有意义。

五、

  本篇论文解读是基于自己的理解写出来的 如果有存在我理解错误的地方 敬请指出 也推荐大家去阅读一下原文 没有任何解读比得上论文本身

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐