0. 前言

  • 相关资料:
  • 论文基本信息
    • 领域:在线行为检测
    • 作者单位:高丽大学
    • 发表时间:2020.3

1. 要解决什么问题

  • 在Untrimmed Videos中做Online Action Detection主要的挑战在于:
    • 在Untrimmed Videos中,可能会发生的动作不止一种。
    • 在Online的限制下,只能获取当前以及过去的数据。

2. 用了什么方法

  • 提出一种Online Action Detection的解决方案。
    • 使用了 future frame generation,预测未来帧作为后续模型输入。
    • 构建 Proposal Representation 分支,用于判断当前输入是否是action,只用来区分 action 与 background。
      • 类似于 faster rcnn 中的RPN阶段。
    • 构建了 Action Recognition 分支用于,用于判断行为类别以及是beginning phases还是end phases。
      • 将每一类都分为 beginning phases 和 end phases 两个阶段,具体怎么划分
      • 论文中说是AR分支是用来学习 Traits (特点,即每个行为开始/结束时候都有其固定的特点)与Temporal Order(猜测意思就是预测动作的起始/结束阶段)。
    • 构建了 F 2 G F^2G F2G分支,即future frame generation,用于预测未来帧。
    • 构建detection network,通过PR/AR提取的特征,在做Temporal的特征融合时使用了LSTM。
    • image_1ecjv7f7h7l3dpsb1m1kj5lvt9.png
    • AR/PR 模型结构如下,感觉就是很普通的3D网络
      • image_1eck0j8hq1va2qhg1id1o2cs6g1m.png-60.5kB

3. 效果如何

  • 给出了与一些offline的temporal action detection方法的结果对比,明显是不如这些offline的方法。
    • image_1eck0n7c410amabd1fjb7qv1a9k2g.png-54.9kB
    • image_1eck0mvgv2v11hje187m192ahk223.png-33.2kB

4. 还存在什么问题

  • 论文自己就给出了存在的问题

    • 需要大量计算资源,整体模型有174M的参数。
    • BP时受限,因为显存有限,不能同时放入所有参数。
    • 依赖future frame预测的性能。
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐