【论文阅读(一)】A Survey of Clustering With Deep Learning From the Perspective of Network Architecture

导语:这是2018年发表在IEEE ACCESS上的一篇用深度学习来做聚类的综述论文,该综述论文从网络结构的角度回顾了利用深度学习实现无监督聚类的发展

摘要

在很多数据驱动的应用领域中聚类是重要的问题之一,聚类的性能高度依赖数据的表示。因此,线性或非线性特征变换被广泛地聚类,用于学习更好的数据表示。在最近几年,大量的工作聚焦于使用深度神经网络去学习聚类友好的表示,极大促进了聚类的性能。在本文作者从网络结构的层面对基于深度学习的聚类算法进行了一个系统的回顾。为了更好地理解该领域,作者首先介绍了基础知识。然后对深度学习地聚类算法进行了分类,并且介绍了各个类别中地一些代表性方法。最终,作者提出了一些用深度学习实现聚类的机遇和给出了一些结论。

背景

数据聚类在很多领域中是一个基础性问题,如机器学习、模式识别、计算机视觉、数据压缩。聚类的目标在于按照基于某种相似性度量,将相似的数据归类到同一组。尽管已经有了大量的数据聚类方法。传统聚类算法在高维数据上的表现通常很差,这是因为这些传统方法的相似度衡量方式对高维数据不管用。此外,通常这些方法在大规模数据集上面临很高的计算复杂度。基于上述原因,降维和特征变换方法被广泛地研究用于将原始数据映射到新的特征空间,这些特征空间的生成数据很容易被当前的分类器分类。通常来说,现存的数据变换方法包括线性变换,如PCA和非线性变换如核方法和谱方法。尽管如此,高复杂潜在结构的数据仍然是现存聚类方法的一个挑战。由于深度学习的发展,由于DNN的高非线性变换内在属性,其被广泛地应用到将数据转换到更容易聚类的表示。为了简单表示,下文将用深度学习实现聚类的方法称为“深度聚类(deep clustering)”。

目前的工作主要集中在特征变换或者独立性聚类中。通常数据要映射到一个特征空间并直接喂入一个聚类算法。最近几年内深度嵌入聚类(DEC)被提出并且有很多改进版本,使得深度嵌入称为研究的新热点。

经典的聚类方法通常被分类成基于分割的方法、基于密度的方法和基于层级的方法。然而,深度聚类的本质是学习更容易聚类的表示,它并不适合根据聚类损失的分类,相反更应该注意用于聚类的网络结构。作者将从以下三个方面的网络结构对现有无监督学习方法进行分类。

基础知识

这部分将介绍特征表示的网络结构、标准聚类方法的损失函数和深度聚类的评估指标。

网络结构

聚类相关的损失函数

该部分介绍了聚类损失函数,损失函数可以知道网络学到更有助于聚类的表示。通常而言,有两种聚类损失:

深度聚类的性能评估指标

在很多深度聚类论文中有两个标准的无监督评估指标。在所有的算法中,类别的数量被设置为真实聚类。

其中yi是真实标签,ci是由算法生成的聚类;m是映射函数,用于分配和标签之间所有可能的一对一映射范围。显而易见的是,该指标可以发现由聚类算法生成的聚类与真实类别的最佳匹配。最优映射函数可由Hungarian 算法得到。

其中Y表示真实标签,C表示聚类标签,I是互信息指标,H是熵。

深度聚类的分类

总结如下表所示

各个方法的共享在于

深度聚类算法的总结

各类算法的总结如下表所示:

结论如下:

未来机遇和结论

Table of Contents