图像修改工作进展

图像处理相关技术进展总结

A briefly survey on image processing, including image restoration

图像处理作为计算机视觉中的重要基础任务,在很多应用场景中都有应用。典型的图像处理应用包括:图像修复、图像复原、图像补全、超分辨率、运动去模糊等。

[2023ICCV] DiffIR: Efficient Diffusion Model for Image Restoration

研究背景

  1. 如果将以图像合成为主的扩散模型应用到图像复原的任务中,那么不仅会浪费大量的计算资源,而且容易生成与低质量图片(LQ)图像不匹配的细节。
  2. 因为图像复原任务中,很多像素是一直的,所以没有必要在整个图像或特征上使用DM。

研究思路

由于transformer可以建模长程像素依赖,所以作者采用transformer块作为DIFFIR的基础模块。作者在UNet结构中堆叠tranformer以构建Dynamic IRformer,以提取和聚集多尺度特征。作者采用双阶段训练方法:(1)在第一阶段,作者开发了一个紧凑的IR先验提取网络CPEN从真实图像中来提取紧凑的IR先验表示IPR,以指导DIRformer。此外,开发了一个dynamic gated feed forward network(DGFN)和dynamic multi head transposed attention(DMTA) 以充分地利用IPR。 值得注意的是,CPEN和DIRformer是一起训练的。(2)在第二阶段,训练一个扩散模型从LQ图像中直接预测准确的IPR。因为IPR是轻量化的,并且仅需添加细节来修复图像,作者提出的DM可以相当准确的估计IPR,并且在几次迭代以后就能获得稳定的视觉效果。

除此之外,作者指出联合优化可以有效提升效果。

[2022CVPR、LDM] High-Resolution Image Synthesis with Latent Diffusion Models

摘要

通过将图像信息过程分解成去噪自编码器的序列应用,扩散模型在合成图像数据上取得了SOTA的结果。此外,这些信息允许在不重新训练的情况下,利用引导机制来控制图像生成过程。然而,这些模型大多直接在图像空间中操作,优化一个强大的DM通常需要消耗数百个GPU天,并且由于序列评估推断的开销非常昂贵。为了使DM在有限计算资源但是保持它们高质量和灵活性,我们将他们应用到强大的预训练自编码器的潜在空间。与现有工作不同,在这种表示上训练的扩散模型能够达到复杂性降低和细节保留的近优点。通过在模型结构中引入交叉注意力层,作者将DM变成更加强大和灵活的生成器,允许使用文本或边界框作为条件输入,以卷积的方式实现高分辨率的合成。作者提出的LDM在图像修复和类别图像合成取得了SOTA的性能,在不同任务上也取得了较高的性能,如无条件图像生成,文本到图像合成,超分辨率,同时与基于像素的DM先比,计算量减少了很多。

1 研究背景

现有的DM方法存在一些问题:

对研究社区和用户会照成以下威胁

因此,在不影响她们性能的情况下,减少DM的的计算需求,是增强它们易得到性的关键。

转入潜在空间 对于任意一个基于似然的模型,学习都可以分成两个阶段:

作者旨在找到一个感知等价,但是计算更加友好的空间,这样就能够生成高分辨率的图像。

具体而言,作者按照以往的常见实践,将训练分成两个不同的阶段:

因此,本文的贡献如下:

2 相关工作

图像合成的生成模型
扩散概率模型(DM)

DM在密度估计和图像质量上取得了SOTA的结果。这些模型的生成能力源自于对图像数据引导偏差的自然拟合,当他们现在的神经网络骨架是由UNet实现时。最佳的合成质量通常是由重新赋权的目标函数指导的训练获得的。在这种情况下,DM类似于有损压缩器,使得可以在图像质量和压缩能力之间实现平衡。

然而,在像素空间评估和优化这些模型,推理速度很慢,并且训练代价很高。针对第一个问题,可以采用一些先进的采样策略和层级方法,在高分辨图像数据上训练通常需要计算昂贵的梯度。作者提出LDM来解决这个问题,该方法在低维的压缩潜在空间工作。这使得训练代价更加便宜,在图像质量不降低的情况下推理速度更快。

两阶段图像合成

为了消除单生成方法的缺点,大量的研究者探索通过双阶段方法,研究结合不同方法的长处实现更加高效和高质量的模型。VQ-VAE使用自回归模型在离散潜在空间中学习一个具有表示性的先验。此方法也被应用到文生图的任务中,通过学习离散图像和文本表示的联合分布。VQGAN在第一阶段使用对抗和感知目标函数将自编码器transformer拓展到更大的图像。然而,高压缩率需要可行的自回归模型的训练,这导致大量的训练参数,限制的了该方法的应用,更少的压缩是以高计算成本为代价的。

作者的方法避免了这个问题,因为LDM的卷积骨架的原因,它能以更加温和的方式扩展到更高维的潜在空间。因此,作者可以自由地在第一阶段以最优地方式学习强大地压缩率水平,而不会在生成扩散模型中留下过多地感知压缩,同时保证高保真度的重建。尽管本文方法需要利用基于得分先验对编码器和解码器进行联合学习,他们同样需要在重建和生成能力复杂的权衡,因此优于本文方法。

3 方法

为了降低在高分辨率图像合成中训练扩散模型的代价, 作者发现尽管通过对相应损失进行欠采样可以使扩散模型忽略无关的细节, 但他们还需要在像素空间进行复杂的评估, 这导致需要大量的计算时间和能源。

作者提出通过通过引入压缩学习阶段和生成学习阶段的明确分离来规避这个缺点。为实现这个目标,作者利用一个自编码器模型去学习一个空间,这个空间与图像空间感知等价,但是可以极大的减少计算复杂度。本文方法的优点有以下几点:

3.1 感知图像压缩

本文的感知压缩模型是基于以前的工作[23],是由使用感知损失和基于补丁的对抗目标函数训练得到的自编码器。这保证了通过强制执行局部真实感来确保重建仅限于图像流形,从而避免了由于仅依赖像素空间损失如L2或L1目标函数导致的模糊问题。

给定一张RGB空间的图片$x\in R^{H \times W \times 3}$,编码器E将图像x编码到潜在表示$z=E(x)$, 解码器D从该潜在表示重建出图像,得到$\hat{x}=D(z)=D(E(x))$, 其中$z\in R^{h \times w \times c}$。重要的是,编码器以因子$f=H/h=W/w$下采样图像,本文将对不同的下采样因子$f=2^m$进行研究,其中$m \in N$。

为了避免潜在空间中过高的方差,作者尝试了两种不同的正则化。第一种是KL-reg,对学习的潜在施加KL惩罚,使其趋向标准正态分布。与VAE类似,即VQ-reg,在解码器中使用一个向量量化层。该模型可以解释为VQGAN,但是量化层在解码器中。由于本文的DM旨在处理学到的二维结构空间$z=E(x)$,因此可以使用相对温和的压缩率,并且取得非常好的重建结果。这与现有不同,这些方法依赖学到空间z的一个任意的1D次序以自回归地建模其分布,并因此忽略z的内在结构。因此,我们的压缩模型可以更好地保留x地细节。全部目标函数和训练席间见附录。

3.2 潜在扩散模型(LDM)

扩散模型是概率模型,通过逐渐去除正太分布变量学习数据分布p(x),这与学习固定长度T的马尔科夫链的逆过程类似。对于图像合成任务,当前最成功的模型都依赖p(x)的变分下限的重加权变体,这反应了去噪分数匹配。这些摸可以解释成一种等价的加权去噪自编码器$\epsilon_\theta(x_t,t); t=1…T$,训练用于预测输入$x_t$的去噪版本,其中$x_t$是输入x的噪声版本。对应的目标函数可以简化成 \(L_{DM}=\mathbb{E}_{x,\epsilon\sim N(0,1),t}[||\epsilon - \epsilon_\theta(x_t,t)||_2^2]\) 其中t是从{1,…,T}中均匀采样的。

潜在表示的生成模型 使用由编码器和解码器构成的训练好的感知压缩模型,可以得到一个高效的、低维的潜在空间,在这个空间中,高频的、难以察觉的细节被抽象出来。与现有的高维像素空间相比,本文提出的空间更适合基于似然的生成模型,因为(a)它们关注数据中重要的、语义位;(b)在低维空间,计算效率高的空间中训练。

不同于以前的依赖自回归的工作,基于注意力的transformer模型是高压缩的,离散的潜在空间,利用该图像特有的诱导偏差的优点是本文的重点。这包括从2D卷积层构建一个UNet结构的能力,并且使用重权重边界进一步关注感知最相关位,因此损失可以变成如下的形式 \(L_{DM}:=\mathbb{E}_{E(x),\epsilon\sim N(0,1),t}[||\epsilon - \epsilon_\theta(z_t,t)||_2^2]\) 模型的神经骨架$\epsilon_\theta(o,t)$由[69]提出的带时间条件的UNet实现。因为前向过程是固定的,在训练过程始中,$z_t$可以从编码器E中有效得到,并且使用一次解码器即可从采样p(z)中重建出图片。

3.3 条件机制

与其他生成模型类似,扩散模型本质上是建模形为p(z|y)的条件分布。这可以通过条件去噪编码器$\epsilon_\theta(z_t,t,y)$并且通过输入y(如文本,语义图、或其他图像到图像的翻译任务)控制合成过程。在图像生成任务场景中,结合DM的生成能力,除类别标签外的条件或输入图像的模糊变体是尚未探究的研究领域。本文通过增加带交叉注意力机制的UNet骨架,将DM变成更加灵活的条件图像生成,这对于多输入模态的基于注意力模型非常有效。为了从不同模态预处理条件y(如语言prompt),作者引入了一种特定领域编码器$\tau_{\theta}$,将y投影到中间层表示$\tau_{\theta}(y)\in R^{M\times d_t}$,随后被通过交叉注意力层映射到UNet的中间层实现$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d}})\cdot V$得到 \(Q = W_Q^{(i)} \cdot \phi_i(z_t), K=W_k^{(i)}\cdot\tau_\theta(y), V=W_V^{(i)}\cdot\tau_\theta(y)\) 其中,$\phi_i(z_t)\in R^{N\times d^i_\epsilon}$表示UNet展平的中间表示,后面几项是可学习的投影矩阵。详情如图3所示。

image-20240423110309004

基于图像条件对,本文的条件LDM表示如下: \(L_{DM}:=\mathbb{E}_{E(x),\epsilon\sim N(0,1),t}[||\epsilon - \epsilon_\theta(z_t,t,\tau_\theta(y))||_2^2]\) 其中,$\tau_\theta$和$\epsilon_\theta$是由上式联合优化得到的。这个条件机制是灵活的,因为可以由领域专家进行参数化,如当y是文本prompt时的无masked transformer。

4 实验

LDMs为灵活计算可处理的基于扩散的图像合成提供了手段,包括各种不同图像模型的高分辨率生成。首先,本文分析了在训练和推理阶段,与基于像素的扩散模型的收益。有趣的是,本文发现LDMs用VQ-reg训练的潜在变量可以获得更好的采样质量。尽管VQ-reg的重建能力在第一阶段模型稍微落后于其连续的版本cf, 表8。因此,除非另有说明,本文在后续均采用VQ-reg LDMs。附录提供了第一阶段正则化模式在LDM训练上和其泛化到更高分辨率$256^2$泛化能力。在附录D.2中,作者进一步列出了详细的结构、实现、训练和所有结果的验证信息。

4.1 感知压缩的权衡

image-20240425221602297

本章分析了在不同下采样因子f∈{1,2,4,8,16,32}上LDM(简写为LDM-f)的行为,其中LDM-1表示基于像素的DM。为了进行公平的比较,作者将计算资源固定为单个A100,本章节所有的实验均在该资源上进行,以相同的迭代步骤和参数量训练所有的模型。

image-20240425221639780

image-20240425221706669

表8展示了LDM所使用的第一阶段模型在超参数和重建性能。图5展示了ImageNet类条件下在2M次训练过程的样本质量。可以看出,

通过上述的分析,作者认为造车这个现象的原因是:

LDM-{4-16}在有效性和感知忠诚度结果方面取得了平衡,在FID指标方面呈现出很大的优势。在2M次训练后,基于像素的扩散模型(LDM-1)和LDM-8在FID方面的指标差异为38。

image-20240425221620770

在图6中,我们应用DDIM采样器,比较了在CelebA和ImageNet上训练的模型上,不同去噪步骤采样速度的差异。LDM-{4-8}优于感知和感念压缩比例不合适的模型。特别是与基于像素的模型LDM-1相比,取得了更低的FID得分,同时极大地提高了采样速度。复杂的ImageNet数据集需要减少压缩率,以避免质量的下降。总而言之,LDM-4和LDM-8在取得高质量合成结果上取得了最佳的结果。疑问:如何衡量压缩率,是通过f来控制的吗?

4.2 使用潜在扩散的图像生成

本文在CelebA-HQ, FFHQ, LSUN-Churches和Bedrooms数据上训练了分辨率为256的无条件模型。并评估在采样质量和对数据流行的覆盖率,分布使用FID和Precision-and-Recall。表1列出了结果。结论如下:

4.3 条件潜在扩散
4.3.1 用于LDM的transformer编码器

通过将基于交叉注意力的条件控制器引入LDM,本文开启了以前工作没有踏足的多条件模态。对于文本转图像的图像建模,本文在LAION-400M数据集上训练了一个以语言prompt为条件的1.45B参数量的模型。本文利用BERT-tokenizer以及将$\tau_\theta$实现为一个transformer以将其转换成潜在编码,该过程由交叉注意力引入UNet模型中。领域特定专家知识的引入构建一个强大的模型以学习自然语言表示并且视觉合成结果,使其能很好的泛化到复杂,用户定义的文本prompt中。

4.3.2 超过256分辨率的卷积采样

通过在空间将条件信息拼接到$\epsilon_\theta$输入中, LDM可以成为一个有效的通用图像到图像的转换模型。作者将使用其实现语义合成,超分辨率,以及图像补全。分别介绍如下:

image-20240426080451397

Table of Contents