生成模型的进展

生成模型进展总结

A briefly survey on classical generate model

生成模型作为是计算机视觉中的重要基础任务,支撑了很多下游应用。本文旨在简要总结近年来典型的生成模型的基本思想,以作记录便于回顾。

不同生成模型的优缺点

方法 优点 缺点
AE 1. 压缩模型 1. 中间特征表示能力弱,生成图像分布单一;
VAE 1. 多样性更好 ,比GAN易于扩展和训练
2.
1. 采样图像的质量不高;
2. 推理时间不如GAN
GAN   1. 对参数敏感, 训练不稳定, 很难训练;
2. 生成的图像容易陷入模式坍塌, 即多样性差;
PixelCNN/PixelRNN 1. 以自然语言的方式建模图像生成任务
以自回归的方式逐像素进行预测
1. 训练代价高;
VQVAE 1. 将中间变量离散化,增强特征表示能力;
2. 采用梯度停止策略,有效解决离散中间变量的优化问题
1. 生成图像模糊
VQGAN 1. 引入对抗和感知损失;
 
VQGAN-CLIP 1. 引入对比学习策略,支持文本控制生成;
 
DDPM 1. 可生成高质量图片;
2.易于扩展, 分布覆盖率, 固定的训练目标;
1.需要大量的迭代次数,消耗的计算资源大;
2.
DDIM    
LDM 1. 简单高效;
2. 覆盖更广泛的数据分布;
3. 引入交叉注意力机制,开辟了多模态条件控制生成的新时代;
4. 有效地应用到不同的领域
 

AE

参考资料:https://zhuanlan.zhihu.com/p/657857297

VAE

参考资料:

VQ-VAE

实现资料:https://zhuanlan.zhihu.com/p/640000410

参考资料:

VQ-GAN

参考资料:

VQGAN-CLIP

Diffusion Model

重要相关文献

文献 重要贡献 重要观点
【NeurIPS2021】Diffusion Models Beat
GANs on Image Synthesis
1. 提出了一种分类引导的有条件图像生成方法,该方法的在各分辨率下的FID为:
128*128:2.97,256*256:4.59,512x512:7.72;
2. 作者在文中采用简单的均方误差损失和vlb损失组合的混合目标函数作为目标函数
, 以及参数化技巧, 从而在不降低图像质量的情况下获得了更快的采样速度
3. 采用类似于DDIM的方法, 通过改变逆向噪声的方差实现从任何步骤的去噪.
4. 模型改进: 除了缩放残差连接外, 增加注意力头的数量和尺寸,
使用BIGGAN的残差连接实现上采样和下采样均对结果有提升.
增加网络深度会增加训练时间代价;
每个注意力头中, 更多注意力头数和更少通道数, FID越高
5. 类引导: 在噪声图像训练一个分类器,然后使用分类器的梯度来引导扩散向类别标签y的采样过程.
1.分类引导方法可以与上采样扩散模型很好地结合;
2. 扩散模型生成图像的质量优于同期SOTA的GAN模型;
3. 调整分类梯度的尺度可以好好地平衡多样性和保真度; 并且减少采样时间, 尤其是高分辨率的情况.
4.作者认为DM不如GAN的原因有:
(1)GAN的结果经过大量的探索和设计; (2) GAN有能力平衡多样和保真度, 可以生成高质量图片但是无法覆盖整个分布
5.作者采用FID作为全文的指标, 是因为它能捕获保真度和多样性, 并且是SOTA生成模型的金标准.
使用PR来分别衡量保真度和多样性;
使用sFID来捕获空间关系
使用IS来评估保真度.
6. GAN在条件生成任务中, 严重依赖类别标签, 采用类条件归一化统计的形式.
但是有研究表明, 在类别数有限的情况下, GAN可以表现得较好
7. 召回率是用来评估分布覆盖率的.
Table of Contents