Backbone - Involution: Inverting the Inherence of Convolution for Visual Recognition

文章目录0. 前言1. 要解决什么问题2. 用了什么方法3. 效果如何4. 还存在什么问题&可借鉴之处0. 前言相关资料：arxivgithub论文解读论文基本信息领域：卷积基本结构作者单位：港科技&字节发表时间：CVPR 2021 Oral一句话总结：设计了一种“内卷”的卷积结构替代普通卷积，卷积核是通过特征图算出来的1. 要解决什么问题卷积操作有两个固有特点spatial-ag

清欢守护者

891人浏览 · 2021-03-12 12:19:16

清欢守护者 · 2021-03-12 12:19:16 发布

文章目录

0. 前言

相关资料：
论文基本信息
- 领域：卷积基本结构
- 作者单位：港科技&字节
- 发表时间：CVPR 2021 Oral
一句话总结：设计了一种“内卷”的卷积结构替代普通卷积，卷积核是通过特征图算出来的

1. 要解决什么问题

卷积操作有两个固有特点
- spatial-agnostic：同一个卷积核到图像的哪个位置都能用，换句话说，所有位置都使用同一个卷积核
  - 存在的问题：限制了卷积核提取特征的的能力（其实每个位置应该通过不同的方式提取特征，且特征提取范围也不应该局限于感受域）
- channel-specific：每个channel都提取不同类型的特征（这个比较玄学）
  - 存在的问题：数据冗余
上面的 agnostic 和 specific 可以理解为互为反义词
- 在本文语境中，我个人觉得，agnostic 可理解为“通用”，specific 可理解为“特定”

2. 用了什么方法

提出的Involution结构与普通卷积完全相反
- spatial-specific：即空间上每个位置卷积操作对应的卷积核是不同的
- channel-agnostic：每个channel对应的卷积核是相同的

相关伪代码如下
- 重点在于 nn.Unfold，其实就是滑框操作，获取每个位置的卷积输入

3. 效果如何

图像分类、分割、检测上的准确率都提升了

相比于性能差不多的普通卷积神经网络，GPU速度些许提升，CPU的推理速度大幅提升

4. 还存在什么问题&可借鉴之处

这个应该可以直接作为TSN的输入了吧，可能改改TSM也能用，还是通过mmcls实现的，实现起来应该不难。

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

“源”聚天大，码动未来|开放原子校源行（天津大学站）即将启幕！

11月22日，开放原子校源行（天津大学站）将在天津大学北洋园校区隆重举办。

开放原子开发者工作坊

openEuler系累计装机量突破1000万，树立操作系统产业新里程碑

11月15日，以“以智能，致世界”为主题的操作系统大会2024在北京中关村国际创新中心召开。

开放原子开发者工作坊

多模态大模型&科学计算双管齐下，百度飞桨两大赛项报名倒计时！

第二届开放原子大赛是由开放原子开源基金会组织举办的开源技术领域专业赛事，聚焦解决真问题，重点覆盖基础软件、工业软件、人工智能大模型等领域

开放原子开发者工作坊

所有评论(0)

查看更多评论

清欢守护者

已为社区贡献8条内容