扰动注意力引导 Perturbed Attention Guidance

GitHub - KU-CVLAB/Perturbed-Attention-Guidance: Official implementation of "Perturbed-Attention Guidance"

按照官方介绍,扰动注意力指导显著提高了扩散模型的样本质量,而无需外部条件(例如类标签或文本提示)或额外训练。这在无条件生成设置中特别有价值,因为无分类器指导 (CFG) 不适用。我们的指导可用于增强利用无条件扩散模型的各种下游任务的性能,包括带有空提示的 ControlNet 和超分辨率和修复等图像恢复任务。

论文地址

Perturbed-Attention Guidance

https://arxiv.org/pdf/2403.17377

使用PAG之前: 

使用PAG之后:

以下是对文章的详细总结:

主要贡献:

  • PAG技术:提出了一种新型的采样引导方法,能够在无条件和有条件的设置中提升扩散样本的质量。
  • 无需额外训练:PAG不需要额外的训练或集成外部模块,即可实现性能提升。
  • 结构增强:通过在去噪过程中逐步增强样本结构,特别是在无条件生成场景中,PAG能够显著提升样本质量。

技术细节:

  • 自注意力机制:利用自注意力图捕获结构信息的能力,通过替换扩散U-Net中的自注意力图为单位矩阵来生成结构降级的中间样本。
  • 隐式判别器:使用隐式判别器区分理想样本和不理想样本,引导去噪过程远离结构崩溃的样本。
  • PAG实现:通过扰动自注意力图,PAG能够在不同时间步长上提供语义线索,从而改善样本的结构和细节。

实验结果:

  • 定量结果:在ADM和Stable Diffusion模型上,PAG在无条件和有条件的设置中均能显著提升样本质量。
  • 定性结果:通过视觉比较,PAG引导的样本在结构和语义上更为合理,与未引导的样本相比,具有更高的质量。
  • 下游任务:PAG在图像恢复(如修复和去模糊)和ControlNet条件下的图像生成等下游任务中表现出色。

相关工作:

  • 扩散模型:讨论了扩散模型在图像生成中的基准和挑战,以及如何通过改进采样速度和训练成本来提高性能。
  • 采样引导技术:分析了分类器引导(CG)和无分类器引导(CFG)等现有技术的优缺点。

实验设置:

  • 评估指标:使用了FID、IS和改进的精确度和召回率等指标来评估生成样本的质量。
  • 实验环境:所有实验在NVIDIA GeForce RTX 3090 GPU和NVIDIA RTX A6000 GPU上进行。

应用案例:

  • Stable Diffusion:PAG在Stable Diffusion模型上的无条件生成和文本到图像合成任务中均显示出优势。
  • 图像恢复:在PSLD模型中,PAG显著提升了图像恢复任务的性能。

讨论与未来工作:

  • PAG与CFG的比较:PAG在保持样本多样性的同时提升了质量,而CFG可能会牺牲多样性。
  • 计算成本:PAG与CFG具有相似的计算成本,但未来研究可以探索减少计算开销的技术。

结论:

文章认为PAG通过结构扰动改进了图像生成质量,且适用于无条件和有条件的设置。PAG在多种下游任务中表现出了其有效性,丰富了对采样引导方法和扩散模型的理解,并展示了无条件扩散模型的广泛应用潜力。

试验测试

comfyui节点其实已经内置了,所以不需要另外安装。

搭建一个简单的工作流:

总体来说,效果还是有提升的,对不同大模型的兼容性也还不错,推荐尝试一下,或许可以提升画面效果;

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,开了一门图文课程,现在已经更新完成了,如果大家在学习过程中遇到什么问题,也可以直接文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​

感谢大家的支持~

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐