前言

该文章为deepmind团队出品,目前挂在arxiv上,并没有查到相应的发表记录。

该文章主要解决对比学习中,只存在正例时出现的模型奔溃解问题,即不论输入是什么,模型的输出都是一个常数。

即使只有正例,BYOL仍然达到了SOTA水平,如下图:
在这里插入图片描述
这表明在对比学习中,负例不一定需要存在。个人认为负例可以避免奔溃解,但是对于高性能的自监督模型而言不是必须的,例如BYOL。

同时相比于使用负例的对比学习算法(例如SimCLR),不使用负例的对比学习算法通常对于batch size大小不敏感,如下图所示
在这里插入图片描述
个人认为对于使用负例的对比学习算法而言,batch_size会影响对比学习中的负例个数,从而影响模型性能,不是很清楚为什么会有这种性质。

本文将对BYOL做一个简答介绍,同时记录一些个人思考。


BYOL简述

在这里插入图片描述
上图为BYOL的模型结构,BYOL存在target和online两个网络,具体处理流程为

  • 对输入数据x施加不同的数据增强,得到 t 、 t ′ t、t' tt
  • t t t输入到online网络的特征提取器 f θ f_\theta fθ中提取特征,得到特征向量 y θ y_\theta yθ,将 t ′ t' t输入到target网络的特征提取器 f ξ f_\xi fξ中提取特征,得到特征向量 y ξ ′ y_\xi' yξ
  • y θ y_\theta yθ经过一个MLP网络 g θ g_\theta gθ处理,得到 z θ z_\theta zθ y ξ ′ y_\xi' yξ经过一个MLP网络 g ξ g_\xi gξ处理,得到 z ξ ′ z_\xi' zξ
  • z θ z_\theta zθ经过一个MLP网络 q θ q_\theta qθ处理,得到 q θ ( z θ ) q_\theta(z_\theta) qθ(zθ),与 z ξ ′ z_\xi' zξ计算对比学习loss

对比学习loss为
在这里插入图片描述
当online与target模型输出固定且相等时,上述loss取值为0,可见奔溃解存在于解空间中

上述对比学习loss的梯度只会反向传播给online网络,不会反向传播给target网络,类似于MoCo,target网络使用动量更新,即
在这里插入图片描述
target网络的更新方式具体可见我的前篇博客链接,在此不赘述。


个人思考

在解空间中仍然存在奔溃解,为什么BYOL可以避免奔溃解?

BYOL的方式更像是trick,减少了找到奔溃解的可能。Target网络采用动量方式更新,更新后并不一定会使损失函数变小,使得模型找到损失函数最小值的可能性变小,即找到奔溃解的可能性变小。原文中有一些数学上的解释,但我不怎么认可。


实验

实验部分截取一些比较有意思的结果,详细请浏览原文
在这里插入图片描述
上图给出动量更新超参数 T T T对模型性能(自监督预训练完,在ImageNet1000上的top-1线性分类准确率)的影响,注意到当 T = 1 T=1 T=1时,target网络不会更新,即使如此,模型依然具有18.8%的准确率。

BYOL对颜色相关的数据增强没有SimCLR敏感,如下图
在这里插入图片描述
不过也可以看出,颜色相关的数据增强对自监督模型性能影响很大。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐