论文浏览(14) STM: SpatioTemporal and Motion Encoding for Action Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题0. 前言相关资料:arxivgithub论文解读论文基本信息领域:行为识别作者单位:浙大&商汤发表时间:2019.81. 要解决什么问题当时的行为识别SOTA模型一般都会提取两种特征时空特征(Spatiotemporal features):期望编码不同帧中空间特征的相互关系运动特征(motion
·
0. 前言
1. 要解决什么问题
- 当时的行为识别SOTA模型一般都会提取两种特征
- 时空特征(Spatiotemporal features):期望编码不同帧中空间特征的相互关系
- 运动特征(motion features):期望提取相邻帧中的运动特征
- 作者将当前的行为识别模型分为两类:
- 双流法:一般通过RGB+2D CNN提取空间(而非时空)特征,通过光流+2D CNN提取时间特征(temporal cues)
- 作者认为光流+2D CNN不能提取long-term temporal features
- 3D CNN:通过3D CNN来提取时空特征。
- 从理论上看,3D CNN可以提取 Long-term temporal features。
- 但3D CNN参数量太大,需要较多计算资源
- 双流法:一般通过RGB+2D CNN提取空间(而非时空)特征,通过光流+2D CNN提取时间特征(temporal cues)
2. 用了什么方法
- 完全不使用3D CNN。
- 提出了两个基本结构CSTM&CMM
- CSTM,全称 Channel-wise SpatioTemporal Module
- 用于快速提取时空特征。
- 主要过程就是reshape后在T维度上进行1D卷积操作。
- 注意,这里使用的channel wise卷积,应该就是depthwise卷积的意思吧。可以把这种卷积看做是分组卷积的极端情况。
- CMM,全称 Channel-wise Motion Module
- 用于提取动作特征
- 主要过程就是先用2D卷积提取每一帧的特征,然后对相邻帧的特征进行融合,concat后得到最终结果。
- CSTM,全称 Channel-wise SpatioTemporal Module
- 使用了一个类似于ResNet的结构,通过CSTM/CMM来构建整体网络
3. 效果如何
- 结果很好,在若干数据集上都达到了SOTA。
- 时间性能上的对比,感觉速度不如TSM,但accruacy有较大提升
4. 还存在什么问题
-
作者说了不会开源。
-
用在online demo上可能没有什么优势。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
已为社区贡献8条内容
所有评论(0)