论文浏览(16) A Novel Online Action Detection Framework from Untrimmed Video Streams
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题0. 前言相关资料:arxivgithub论文解读论文基本信息领域:在线行为检测作者单位:高丽大学发表时间:2020.31. 要解决什么问题在Untrimmed Videos中做Online Action Detection主要的挑战在于:在Untrimmed Videos中,可能会发生的动作不止一种。在On
·
0. 前言
- 相关资料:
- arxiv
- github
- 论文解读
- 论文基本信息
- 领域:在线行为检测
- 作者单位:高丽大学
- 发表时间:2020.3
1. 要解决什么问题
- 在Untrimmed Videos中做Online Action Detection主要的挑战在于:
- 在Untrimmed Videos中,可能会发生的动作不止一种。
- 在Online的限制下,只能获取当前以及过去的数据。
2. 用了什么方法
- 提出一种Online Action Detection的解决方案。
- 使用了 future frame generation,预测未来帧作为后续模型输入。
- 构建 Proposal Representation 分支,用于判断当前输入是否是action,只用来区分 action 与 background。
- 类似于 faster rcnn 中的RPN阶段。
- 构建了 Action Recognition 分支用于,用于判断行为类别以及是beginning phases还是end phases。
- 将每一类都分为 beginning phases 和 end phases 两个阶段,具体怎么划分
- 论文中说是AR分支是用来学习 Traits (特点,即每个行为开始/结束时候都有其固定的特点)与Temporal Order(猜测意思就是预测动作的起始/结束阶段)。
- 构建了 F 2 G F^2G F2G分支,即future frame generation,用于预测未来帧。
- 构建detection network,通过PR/AR提取的特征,在做Temporal的特征融合时使用了LSTM。
- AR/PR 模型结构如下,感觉就是很普通的3D网络
3. 效果如何
- 给出了与一些offline的temporal action detection方法的结果对比,明显是不如这些offline的方法。
4. 还存在什么问题
-
论文自己就给出了存在的问题
- 需要大量计算资源,整体模型有174M的参数。
- BP时受限,因为显存有限,不能同时放入所有参数。
- 依赖future frame预测的性能。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
已为社区贡献8条内容
所有评论(0)