论文回顾:去屏摄摩尔纹
AIM 2019 Challenge on Image Demoireing: Dataset and Study
这是ICCV挑战赛的一个workshop,介绍了LCDMoire数据集和比赛结果等信息。
LCDMoire数据集包含10000张训练集,100张验证集和100张测试集。分辨率为1024*1024.
数据集构建
- 将RGB图像重采样成RGB子像素的马赛克图像(用由9个像素[k,k,k;r,g,b;r,g,b],其中k是黑色)来模仿图片在LCD上的展示效果。注意:这个步骤会导致最后的摩尔图像变暗
- 对图像使用随机投影变换,以模仿显示器和摄像头的不同相对位置和方向,再应用3x3的高斯滤波器。为了建模随机投影变换,在图像尺寸的0.2倍半径内对4个图像角进行随机采样(使用均匀分布)。
- 使用贝叶斯CFA对图像进行重采样,以模仿RAW数据,并且将高斯噪声添加到模仿传感噪声。
- 应用一个简单的ISP管道,里面包括去马赛克(双线性插值)和去噪(由OpenCV提供的标准去噪函数)
- 使用JPEG压缩来模拟压缩噪声,对齐感觉图像与摩尔图像,最终进行裁剪。
- 数据集的后处理 为了涵盖更多的数据种类,数据集包含以下三类:全图像、全文字、图文均有的情况。使用75%和25%的图像黑白像素值数量的阈值将图像分成了3类。
- 平衡摩尔频率内容 通过分析摩尔模式的分布来确保数据集中能量谱分布。将谱分成了3组:低频、中频、高频。除了将RGB图像输入摩尔图像生成管道,还将输入了全白图像,来生成仅有摩尔模式的图像。
比赛(赛道和评价)
比赛有两个赛道:保真度(Fidelity)和感知度(Perceptual),用以评估对象的主观和客观治疗。
- 保真度 PSNR, SSIM
- 感知度 MOS(Mean Opinion Socre),human subjects
AIM 2019 Challenge on Image Demoireing: Methods and Results
这篇文件回顾了2019AIM挑战赛。提出了一个新的数据集LCDMoire。提供2个赛道处理相关任务。
从参加队伍的结果上看,有一些有趣的趋势:
- Ensembles 在测试时,一些解决方案使用了一种自组织集成方法,该方法对输入进行翻转和旋转后的结果进行平均。在经过去摩尔纹的操作后,再使用逆翻转/旋转,然后对去完摩尔纹后的图像集合进行平均操作。
- Augmentation 很多参赛者使用了数据增强策略,比如翻转或者旋转90度。
- Multi-scale strategy 很多解决方法采用了一种多尺度策略作为一种机制,以解决处理频域的摩尔纹
- Similar, or different losses between tracks 在两个赛道,尽管很多解决方法选择了相同的损失函数;但对于不同的赛道,也尝试了一些不同的损失,保真度赛道强调重建,感知度赛道强调感知质量。
各种方法
Islab-zju团队
保真度赛道的第一名,他们团队提出了一种基于CNN的可学习多尺度的带通滤波器方法,MBCNN。摩尔纹伪影通常以多尺度和多频率纹理的形式出现。根据这个观察,并且受IDCN的启发,该团队涉及了一个基于CNN的可学习的多尺度带通滤波器。MBCNN不仅去除了摩尔纹伪影,还增强了摩尔图像的亮度。实际上,该方法参考了CAS-CNN的结构并且提出了一个3层多尺度带通滤波CNN网络,故得名MBCNN。MBCNN首先使用pixel shuffle将输入图像的分辨率减少到源图像的一半。使用了2x2步骤的卷积层对其他两层进行出来,最终得到两个子尺度。
对于每一层,处理操作可以分成以下3部分:伪影消除,色调映射和图像重建。
- 伪影消除,MBCNN使用残差连接解决该问题。
- 色彩映射,dense连接
- 图像重建,带有pixel shuffle的卷积层
他们使用了L1损失和L1 sobel损失。他们使用了隐式的DCT来评估频率损失并且为每个DCT系数提供了一个可学习的权重。该方法与每个DCT系数学习的权重来创建带通滤波。
训练时使用了128x128的小图像,batch size 16, 8000一个epoch。使用了衰减学习率。
MoePhoto团队
该团队提出了一种多尺度动态特征编码网络来去除摩尔纹,MDDM。为了消除摩尔纹模式,该方法创建了一个图像特征金字塔,在不同的空域分辨率对图像特征进行编码,并且得到不同频域带图像特征的表示。使用多尺度残差网络整合多个分辨率分支。这些分支能够在原始分辨率,2x, 4x,8x,16x和32x下采样特征中学到非线性映射。然后对每一分支的这些特征使用sub-pixel卷积上采样到原始分辨率。网络自动学习了每个分支的权重并且对总数求和获得了最终的输出。MDDM同样也提出了一种动态特征编码(DFE)方法。在每个下采样分支,该方法加入了一个额外的lightweight分支。这个分支卷积层的数量等于backbone分支中残差块的数量。每个DFE分支可以学到在不同尺度的全局残差,并且通过自适应规范化影响主分支。
XMU-VIPLab team
XMU-VIPLab团队提出了全局-局部融合网络来对单张图片进行去摩尔纹。他们首先分别训练了一个全局和局部去摩尔纹网络,然后使用了一个融合分支来融合两个网络的结果并且获得了最终的去摩尔结果。局部网络使用了一个对称的编解码结构,使用Residual in Residual块作为基础模块,从训练集中裁减了512x512大小的图像作为网络的输入。全局网络使用了标准的U-NET结构。在融合时,局部网络的结果需要放大4倍。
KU-CVIP团队
KU-CVIP团队提供了一个Densely连接的残差Dense网络。提出的网络是基于残差密集块(RDB)。RDB最初用在超分辨率中,随后有作者发现它去噪的效果也好。该队伍的方法密集连接了RDBs,并且在每个DCRDB中添加了跳跃连接。该方法使用了2步的4x4大小的卷积层进行上采样和下采样得到特征图来提取多尺度的特征和使网络更深。1281*128的图像块作为网络的输入,训练了54个小时。
IAIR团队
IAIR团队提出了基于小波变换的多尺度网络,WMSN,用于图像去噪。这个是一个基于UNET网络的网络。在Unet结构中使用了集成小波块用于解码块,用于降低特征并且通过上采样来恢复特征。网络包括了4个stride的卷积层和4个小波块。
在实现的时候,作者首先使用了一个分类网络对文字和表格图片进行分类。提取64*64的图像作为网络的输入。作者使用有小波模块的网络比没小波模块的网络在PSNR上要提升1.9dB。
PCALab团队
PCALab团队提出了一种领域自适应图像去摩尔纹。该方法假设干净图像来自干净领域,摩尔纹来自摩尔纹领域,这两个领域共享相同的潜在空间。为了学习潜在空间,租着提出使用自编码器框架学习潜在空间特征。
Neuro团队
Neuro团队提出了使用条件GAN去除高分辨率图像中的摩尔纹。该方法将问题建模成图像变换和使用CGAN来重建去摩尔纹图像。由于混叠,摩尔纹图像的频率谱在高频部分有一些缺失。该方法使用了一个全局的生成器以替代局部生成器,来强调全局信息,以增强图像的保真度和感知质量。使用了1024x1024尺寸的图像作为输入。
IPCV_IITM团队
IPCV_IITM团队提出了一种子像素密集Unet网络去摩尔纹。该网络提出的深度密集残差自编码器使用了子像素卷积层和多层金字塔池化模块,以更加有效的估计去摩尔图像。在输入到编码器之前,使用因子为2的pixel-shuffling对输入图像的分辨率进行处理,这样提高了网络的感受域和减少了计算资源。使用了密集连接,以防止梯度消失的问题和有助于降低模型的复杂度。使用了预训练的Dense-121网络的权重进行初始化。最终的结果是真实图像和输入图像的残差。
- incorporates 合并,包括