生成模型的进展
生成模型进展总结
A briefly survey on classical generate model
生成模型作为是计算机视觉中的重要基础任务,支撑了很多下游应用。本文旨在简要总结近年来典型的生成模型的基本思想,以作记录便于回顾。
不同生成模型的优缺点
方法 | 优点 | 缺点 |
---|---|---|
AE | 1. 压缩模型 | 1. 中间特征表示能力弱,生成图像分布单一; |
VAE | 1. 多样性更好 ,比GAN易于扩展和训练 2. | 1. 采样图像的质量不高; 2. 推理时间不如GAN |
GAN | 1. 对参数敏感, 训练不稳定, 很难训练; 2. 生成的图像容易陷入模式坍塌, 即多样性差; | |
PixelCNN/PixelRNN | 1. 以自然语言的方式建模图像生成任务 以自回归的方式逐像素进行预测 | 1. 训练代价高; |
VQVAE | 1. 将中间变量离散化,增强特征表示能力; 2. 采用梯度停止策略,有效解决离散中间变量的优化问题 | 1. 生成图像模糊 |
VQGAN | 1. 引入对抗和感知损失; | |
VQGAN-CLIP | 1. 引入对比学习策略,支持文本控制生成; | |
DDPM | 1. 可生成高质量图片; 2.易于扩展, 分布覆盖率, 固定的训练目标; | 1.需要大量的迭代次数,消耗的计算资源大; 2. |
DDIM | ||
LDM | 1. 简单高效; 2. 覆盖更广泛的数据分布; 3. 引入交叉注意力机制,开辟了多模态条件控制生成的新时代; 4. 有效地应用到不同的领域 |
AE
参考资料:https://zhuanlan.zhihu.com/p/657857297
VAE
参考资料:
- https://www.cnblogs.com/amazingter/p/14686450.html#:~:text=AE%E4%B8%BB%E8%A6%81%E7%94%A8%E4%BA%8E%E6%95%B0%E6%8D%AE,%E5%88%99%E8%A6%81%E7%94%A8%E5%88%B0GAN%E3%80%82
- https://spaces.ac.cn/archives/5253
VQ-VAE
实现资料:https://zhuanlan.zhihu.com/p/640000410
参考资料:
- https://zhuanlan.zhihu.com/p/388299884
- https://zhuanlan.zhihu.com/p/633744455
- https://www.spaces.ac.cn/archives/6760
VQ-GAN
参考资料:
- https://zhuanlan.zhihu.com/p/515214329
VQGAN-CLIP
Diffusion Model
重要相关文献
文献 | 重要贡献 | 重要观点 |
---|---|---|
【NeurIPS2021】Diffusion Models Beat GANs on Image Synthesis | 1. 提出了一种分类引导的有条件图像生成方法,该方法的在各分辨率下的FID为: 128*128:2.97,256*256:4.59,512x512:7.72; 2. 作者在文中采用简单的均方误差损失和vlb损失组合的混合目标函数作为目标函数 , 以及参数化技巧, 从而在不降低图像质量的情况下获得了更快的采样速度 3. 采用类似于DDIM的方法, 通过改变逆向噪声的方差实现从任何步骤的去噪. 4. 模型改进: 除了缩放残差连接外, 增加注意力头的数量和尺寸, 使用BIGGAN的残差连接实现上采样和下采样均对结果有提升. 增加网络深度会增加训练时间代价; 每个注意力头中, 更多注意力头数和更少通道数, FID越高 5. 类引导: 在噪声图像训练一个分类器,然后使用分类器的梯度来引导扩散向类别标签y的采样过程. | 1.分类引导方法可以与上采样扩散模型很好地结合; 2. 扩散模型生成图像的质量优于同期SOTA的GAN模型; 3. 调整分类梯度的尺度可以好好地平衡多样性和保真度; 并且减少采样时间, 尤其是高分辨率的情况. 4.作者认为DM不如GAN的原因有: (1)GAN的结果经过大量的探索和设计; (2) GAN有能力平衡多样和保真度, 可以生成高质量图片但是无法覆盖整个分布 5.作者采用FID作为全文的指标, 是因为它能捕获保真度和多样性, 并且是SOTA生成模型的金标准. 使用PR来分别衡量保真度和多样性; 使用sFID来捕获空间关系 使用IS来评估保真度. 6. GAN在条件生成任务中, 严重依赖类别标签, 采用类条件归一化统计的形式. 但是有研究表明, 在类别数有限的情况下, GAN可以表现得较好 7. 召回率是用来评估分布覆盖率的. |