Backbone - Involution: Inverting the Inherence of Convolution for Visual Recognition
文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料:arxivgithub论文解读论文基本信息领域:卷积基本结构作者单位:港科技&字节发表时间:CVPR 2021 Oral一句话总结:设计了一种“内卷”的卷积结构替代普通卷积,卷积核是通过特征图算出来的1. 要解决什么问题卷积操作有两个固有特点spatial-ag
·
0. 前言
- 相关资料:
- 论文基本信息
- 领域:卷积基本结构
- 作者单位:港科技&字节
- 发表时间:CVPR 2021 Oral
- 一句话总结:设计了一种“内卷”的卷积结构替代普通卷积,卷积核是通过特征图算出来的
1. 要解决什么问题
- 卷积操作有两个固有特点
- spatial-agnostic:同一个卷积核到图像的哪个位置都能用,换句话说,所有位置都使用同一个卷积核
- 存在的问题:限制了卷积核提取特征的的能力(其实每个位置应该通过不同的方式提取特征,且特征提取范围也不应该局限于感受域)
- channel-specific:每个channel都提取不同类型的特征(这个比较玄学)
- 存在的问题:数据冗余
- spatial-agnostic:同一个卷积核到图像的哪个位置都能用,换句话说,所有位置都使用同一个卷积核
- 上面的 agnostic 和 specific 可以理解为互为反义词
- 在本文语境中,我个人觉得,agnostic 可理解为“通用”,specific 可理解为“特定”
2. 用了什么方法
- 提出的Involution结构与普通卷积完全相反
- spatial-specific:即空间上每个位置卷积操作对应的卷积核是不同的
- channel-agnostic:每个channel对应的卷积核是相同的
- 相关伪代码如下
- 重点在于
nn.Unfold
,其实就是滑框操作,获取每个位置的卷积输入
- 重点在于
3. 效果如何
- 图像分类、分割、检测上的准确率都提升了
- 相比于性能差不多的普通卷积神经网络,GPU速度些许提升,CPU的推理速度大幅提升
4. 还存在什么问题&可借鉴之处
- 这个应该可以直接作为TSN的输入了吧,可能改改TSM也能用,还是通过mmcls实现的,实现起来应该不难。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
已为社区贡献8条内容
所有评论(0)