High-Resolution Photorealistic Image Translation in Real-Time: A LPTN

paper:http://www4.comp.polyu.edu.hk/~cslzhang/paper/LPTN-cvpr21-paper.pdfcode:https://github.com/csjliang/LPTN文章目录摘要LP(Laplacian Pyramid)Introduction实验结论讨论参考摘要现有的I2IT(Image-to-Image Translation)方法要么局限

点PY

931人浏览 · 2021-05-24 09:12:08

点PY · 2021-05-24 09:12:08 发布

paper:http://www4.comp.polyu.edu.hk/~cslzhang/paper/LPTN-cvpr21-paper.pdf

code:https://github.com/csjliang/LPTN

摘要

现有的I2IT(Image-to-Image Translation)方法要么局限于低分辨率的Image，要么就是高分辨率的feature卷积导致沉重的计算负担，使得reference时间就很长。这就使得现在有的算法不适合于实时应用。本文的目的就在于提高高分辨率实际图像(Photorealistic Image)的I2IT算法的速度，基于紧凑形式的拉普拉斯金字塔(closed-form Laplacian Pyramid)的解耦和重建。具体来说，作者发现，譬如明亮度和颜色操作等变换属性多和低频(low-frequency)部分相关；而内容细节(content details)更多的可以在高频部分被自适应地调整。文中提出了一个LPTN(Laplacian Pyramid Transform Network)来同时执行上述的变换和细化。即，设计了一个轻量化网络采用降分辨率的方法来转化低频分量；一个渐进掩码(masking)策略来有效地调整高频分量。该模型的优点是避免了因为处理高分辨feature了引起的计算量消耗，并且忠实地保留了图像细节。

LP(Laplacian Pyramid)

LP的主要思想是线性地解耦一张图像到一个高／低频带地集合中。LP常用于图像压缩，图像增强，图像去噪等处理中，其优点是：(1). LP变换在每一级上只产生一个带通信号，这使得LP在许多corase-to-fien的milti-resolution算法种得到应用；(2). LP只对下采样的低频信号进行处理，这样不会产生“混频”效果。

LP的分解和重构过程如下图：
在这里插入图片描述
由上图(a)可知，LP分解的过程会产生一个低分辨率的粗糙图像a以及一个原图像于预测信号的差异信号b。

Introduction

I2IT(Image-to-Image Translation)，指的是将一幅源图像转换到目标域的过程。这方面的问题现在备受关注，比如在白天黑夜图像转化或multi-sensor之间传输图像，或修饰图像的照明和颜色以提高其审美质量等。和传统的I2IT相比，实时高分辨率I2IT任务的主要挑战在于如何保持效率和避免内容失真。

在这里插入图片描述
图Figure1中，同一场景但拍摄的时间是不一样的，在经过LP分解时，两幅图像的高频分量的MSE(Mean square error)是差不多的(1/71, 1/65)；而低频分量的差距比较明显。在高频分解部分，不同的level种的纹理是相似的，这就有利于允许有效的masking策略来相应地调整内容细节。

相比较于传统的encode-decode方法的局限在于：关注于低分辨率图像处理的应用或者在reference时耗费了太多的时间，这使得这种方法远远达不到实际应用的地步。

基于上述的发现，文中提出了一种快速且有效的方法，即LPTN来转化提高效率。利用级联残差模块来构建一个轻量化的网络用于处理低频分量；同时为了拟合在低频分量上的操作，并忠实地重构图像，文中自适应地调整高频分量来避免在高分辨率上执行卷积而带来的高额计算量。为了实现自适应地调整高频分量，构建了一个微型网络来计算LP中最顶级地高频分量地mask，然后渐进的上采样来达到和其他level地分辨率一致。本方法使实时I2IT可以在４K分辨率图像上执行实时操作，并且提升了网络地效率相较于传统方法而言。

实验

为扩展I2IT任务到高分辨率场景，我们从Flickr 网络收集了两个非成对数据集，器分辨率从1080p变化到4K范围。一个为白天-黑夜变换，一个为夏天-冬天变换。

此外，为定量评估所提方法，我们在MIT-Adobe-FiveK 数据集上进行实验对比。参考现有方案，我们采用expertC 作为目标。

训练超参方面，我们采用Adam 优化器，学习率为0.0001，损失的加权比例为 Lrecons:Ladv=10:1 。
在这里插入图片描述
第三列中的图像是在不使用高频分量细化模块的情况下生成的，而第四列中的图像是在转换低频分量时通过去除实例规范层生成的。

探究LP分解中层数 [公式] 对实验效果的影响：当[公式]时模型的小仙效果是最好的，当 [公式] 或者 [公式] 时，模型需要权衡时间消耗和表现。和现有的CycleGAN，UNIT，MUNIT，White-Box和DFE网络做对比，效果如下
在这里插入图片描述

结论

通过使用LP解耦图像，文中提出的框架将特定领域的视觉属性和具有渐变分辨率的纹理以可逆的方式分离出来，并在低分辨率分量训练了转化和细化网络。

讨论

笔者的思考，将图形进行多尺度，多分辨率变换然后对高/低频进行各自处理，这类方法有很多，可供选择的pyramid 就有Laplacian pyramid，比率低通金字塔变换，对比度金字塔变换，梯度金字塔变化等。和pyramid类相对应的图像分解算法就是wavelet 类时频域变换的算法。图像融合算法这个话题由来已久，现在的问题在如何将原来的算法所使用的分辨率(256256 或者 512512)提升到现在的图像传感器所采集的数据的高度，比如4K。同时在应用时对reference 时间的提升。受这篇文章的启发，可以考虑如何使用wavelet 变化将高分百年率图像实时的融合起来。比如Contourlet 变换，其中也是用到了LP来构建多尺度分解。但是Contourlet在高频分量，即图像的纹理和细节方面的保留能力更为突出。同时，文中提到，低频分量主要是和illumination 和color 相关，这表明，图像的弱光增强也主要是在图像的低频分量进行操作，因此可以采用Laplacian pyramid 或者wavelet 变换来实现Image Enhancement.

参考

https://zhuanlan.zhihu.com/p/367964010

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

【Spring Boot 】Spring Boot + HikariCP 连接池使用示例

文章目录示例工具版本HikariCP 依赖HikariCP 配置1. connectionTimeout2. minimumIdle3. maximumPoolSize4. idleTimeout5. maxLifetime6. autoCommitSpring Boot Data + HikariCP + MySQL示例测试应用程序1. 使用 Maven 命令2. 使用 Eclipse3. 使用