小波变换到小波网络理解+论文解读《Wavelet Convolutional Neural Networks》
连续小波变换最大的特点是什么多分辨分析肯定是标准答案。所谓多分辨分析即是指小波在不同频率段会有不同的分辨率由图,我们可以看出,低频时(频率为4),对应彩色条纹更细,意味着更高的频率分辨率,而条纹区间大概落在【0,2.5】之间,这意味着较低的时间分辨率。同理,高频时,对应更低的频率分辨率和更高的时间分辨率。不同频率小波基函数在频域的带宽是不一样的,低频时的带宽窄,高频是的带宽要更宽一点。而带宽越窄,
连续小波变换最大的特点是什么
多分辨分析肯定是标准答案。所谓多分辨分析即是指小波在不同频率段会有不同的分辨率
由图,我们可以看出,低频时(频率为4),对应彩色条纹更细,意味着更高的频率分辨率,而条纹区间大概落在【0,2.5】之间,这意味着较低的时间分辨率。同理,高频时,对应更低的频率分辨率和更高的时间分辨率。
不同频率小波基函数在频域的带宽是不一样的,低频时的带宽窄,高频是的带宽要更宽一点。而带宽越窄,意味着小波这个带通滤波器,允许通过的频率越接近小波本身的中心频率,即频率分辨率越高,反之,带宽越宽,对应的频率分辨率越低。
尺度a越大,衰减越慢,支撑区间也就越大,反之,亦然。换句话说,尺度参数a不仅可以用来生成一些列的不同中心频率的基函数,还可以控制基函数在时域的支撑区间。
离散小波变换(DWT)的理解
由于CWT需要一个连续信号,但是实际采样信号往往是离散的,我们无法直接对实际信号进行CWT。为了使得计算机可以进行小波变换,我们需要引入离散小波变换(DWT)。
一维离散小波变换
经过小波变换后图像会生成低频信息和高频信息。低频信息对应于求均值,高频信息对应于求差值。
均值是局部的平均值,变化缓慢,属于低频信息,存储图片的轮廓信息,近似信息;
差值是局部的波动值,变化较快,属于高频信息,存储图片的细节信息,局部信息,另外含有噪音。
h(high)是高通滤波器,允许高频信息通过;h(low)是低通滤波器,允许低频信息通过
二维离散小波变换
A是低频信息, H是水平高频信息, V是垂直高频信息、 D是对角高频信息。
1.小波分解的意义就在于能够在不同尺度上对信号进行分解,而且对不同尺度的选择可以根据不同的目标来确定。
2.对于许多信号,低频成分相当重要,它常常蕴含着信号的特征,而高频成分则给出信号的细节或差别。
3.在小波分析中经常用到近似与细节。近似表示信号的高尺度,即低频信息;细节表示信号的低尺度,即高频信息。因此,原始信号通过两个相互滤波器产生两个信号。
4.通过不断的分解过程,将近似信号连续分解,就可以将信号分解成许多低分辨率成分。
文章标题:Wavelet Convolutional Neural Networks
由于CNN直接在空间域中处理图像,它们本质上是空间方法。鉴于空间和谱域方法已知具有不同的特性,将谱域方法纳入CNN是一次新的尝试。传统的CNN缺少通过多分辨率分析获得的大部分光谱信息。因此,我们建议补充多分辨率分析的缺失部分,作为CNN架构中新的附加组件。
不同尺度和方向上的光谱信息的统计数据定义了图像特征。这种方法在图像处理中得到了很好的研究并取得了实际效果。频域中的特征提取有一个优势。一个空间滤波器可以很容易地通过增强某些频率而抑制其他频率来实现选择性。这种对某些频率的明确选择在CNN中是难以控制的。虽然CNN被认为是通用的近似器,但在实践中,CNN是否能学会用现有的数据集进行频谱分析还不清楚。与其依靠CNN学习进行频谱分析,我们建议将频谱方法直接整合到CNN中,特别是基于使用小波变换的多分辨率分析。
p = 2意味着我们通过取成对平均值将输出数量减少到输入数量的一半。
广义权重k定义为
k=w,p=1
k=p,p>1
k=w∗p,p>1
多分辨率分析将xl进一步分解如下
实验1:纹理分类
纹理分类是一个具有挑战性的问题,因为在同一类别中,由于视角、比例、照明配置等的变化,纹理往往变化很大。此外,纹理通常不包含足够的关于物体形状的信息,而这些信息对于区分图像分类任务中的不同物体是有参考价值的。
kth-tips2-b数据集:包含11类432幅纹理图像。每个类由四个样本组成,每个样本有108幅图像。每个样本用于训练一次,其余三个样本用于测试。kth-tips2-b的结果显示为四次分割的平均值和标准差。
DTD数据集:包含47类120张 "野外 "图像,这意味着图像是在不受控制的条件下收集的。这个数据集包括10个有注释的分片,每个类有40张训练图像、40张验证图像和40张测试图像。DTD的结果是这10个分片的平均数。
红色方块表示分类错误的纹理。我们可以直观地确认,光谱方法(Shearlet)对尺度变化不敏感,可以提取详细的特征,而空间方法(VGG-M)则对变形不敏感。例如,在第一个实验中,Shearlet可以正确地忽略皱纹的尺度,但VGG-M却无法将这样的图像归入同一类别。在第二banded实验中,VGG-M将扭曲的线条分类为正确,但Shearlet不能很好地识别这种线状结构。由于我们的模型是这两种方法的结合,它可以将纹理图像分配到上述各种变化中的正确标签。
实验2:图像注释
图像注释任务的目的是将多个标签与图像的内容相关联。卷积神经网络-递归神经网络(CNN-RNN)编码器-解码器模型是这项任务的一个流行方法。在这个模型中,一个CNN将图像编码为一个固定长度的向量,然后将其送入RNN,RNN将其解码为一个标签列表。循环图像注释器(RIA)利用CNN输出的图像特征作为RNN的隐藏状态。
IAPR-TC12数据集包含了20,000张带有多种语言文字说明的自然场景图像。这个过程的结果是词汇量为291。训练使用了17,665个图像,剩余的作为测试。
微软COCO(MS-COCO)数据集包含82,783张训练图像和40,504张测试图像。我们采用了80个对象注释作为标签。
使用每类和总体指标,包括精度(C-P和O-P)、召回率(C-R和O-R)和F1得分(C-F1和O-F1)作为评价指标。
上排的图像来自IAPR-TC12, 下排的图像来自MS-COCO。 GT表示地面真实注释
同时还比较了可训练的参数的数量,如权重和偏置,以分类到1000个类:
我们的模型在大幅减少参数数量的情况下比现有模型取得了更好的结果。每个Caffe模型的内存消耗是。392 MB(VGG-M),232 MB(AlexNet),89.1 MB(T-CNN)和53.9 MB(Ours)。少量的参数通常可以抑制模型对小数据集的过度拟合。
我们证明了我们的模型在纹理分类和图像注解方面取得了比现有模型更小的可训练参数数量的更好的准确性。特别是,当我们从头开始训练每个模型时,我们的模型以很大的幅度超过了所有可训练参数明显增多的现有模型。小波CNN是一个通用的学习模型,应用于其他问题是未来有趣的工作。
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)