数据挖掘中的聚类解释指南——定义、应用和算法

已发表: 2021-02-25

目录

简介 – 什么是数据挖掘和聚类?

各种组织手头都有大量数据,这些组织选择存储这些数据是有原因的。 他们使用这些数据从数据中提取一些见解,这可以帮助他们提高盈利能力。 从原始数据集中提取洞察力和潜在模式的过程称为数据挖掘。 提取这些有见地的模式的方法之一是聚类。

聚类是指对表现出共同特征的数据点进行分组。 换句话说,它是一个分析数据集并创建数据点集群的过程。 集群只不过是一组类似的数据点。 在聚类处理中,首先将数据点组合在一起形成聚类,然后为这些聚类分配标签。

为了对数据集进行聚类,我们通常使用无监督学习算法,因为输出标签在数据集中是未知的。 聚类可用作探索性数据分析的一部分,并可用于建模以获得有洞察力的聚类。 应该以这样的方式优化集群,即集群内的数据点之间的距离应该最小,并且不同集群之间的距离应该尽可能远。

为什么要使用集群? – 集群的使用

  1. 更好地解释数据——使用聚类,从数据集中提取的模式可以很容易地被外行人理解,因此可以很容易地解释它们。
  2. 来自高维数据的洞察——高维数据集并不容易仅通过查看其特征来分析。 使用聚类有助于提供一些见解并从海量数据中提取一些模式。 它可以提供一些总结,可能有助于解决一些问题。
  3. 发现任意聚类——借助不同的聚类方法,我们可以找到可以采用任意随机形状的聚类。 这有助于获得数据集的基本特征。

集群的实际用例 - 应用程序

  1. 贵公司推出了一种新产品,您负责确保该产品能够接触到合适的人群,以便您的公司能够实现最大的盈利能力。 在这种情况下,识别正确类型的人是手头的问题。 您可以在客户数据库上执行聚类,通过分析他们的购买模式来识别正确的人群。
  2. 您的公司有大量未分类的图像,您的主管要求您根据图像的内容对它们进行分组。 您可以使用聚类对这些图像执行图像分割。 如果他们要求您从现有数据中提取一些模式,您也可以使用聚类。

不同类型的聚类方法——算法

1.层次聚类法

该方法根据选择的距离度量(如欧几里得距离、曼哈顿距离等)对集群进行分组或划分。通常使用树状图表示。 它在所有簇之间创建一个距离矩阵,指示它们之间的距离。 使用这个距离度量,集群之间的链接是基于链接的类型来完成的。

由于一个簇中可能有许多数据点,因此一个簇中的所有点与另一簇中的所有点之间的距离会有所不同。 这使得很难决定应该考虑哪个距离来决定集群的合并。 为了解决这个问题,我们使用链接标准来确定应该链接哪些集群。 共有三种常见的链接类型:-

  • Single Linkage –两个集群之间的距离由这两个集群中的点之间的最短距离表示。
  • Complete Linkage –两个集群之间的距离由这两个集群中的点之间的最大距离表示。
  • 平均链接——两个集群之间的距离通过计算这两个集群中点之间的平均距离来表示。

凝聚法——也称为自下而上法。 在这里,每个数据点在初始阶段都被认为是一个集群,然后将这些集群一一合并。

分裂方法——也称为自上而下的方法。 在这里,所有数据点在初始阶段被视为一个集群,然后将这些数据点划分以创建更多集群。

2.分区聚类方法

该方法根据数据点之间的特征和相似性创建聚类。 使用这种方法的算法需要创建集群的数量作为输入。 然后,这些算法遵循迭代方法来创建这些数量的集群。 遵循这种方法的一些算法如下: –

  • K-Means 聚类

K-Means 使用曼哈顿距离、欧几里得距离等距离度量来创建指定的集群数量。 它计算数据点和聚类质心之间的距离。 然后将数据点分配给最近的集群,并重新计算集群的质心。 重复这样的迭代,直到完成预定义的迭代次数或迭代后集群的质心不改变。

  • PAM(围绕 Medoids 分区)

也称为 K-Medoid 算法,该算法的这种工作方式类似于 K-Means 的工作方式。 它与 K-Means 的区别在于如何分配集群的中心。 在 PAM 中,集群的中心点是实际数据点,而在 K-Means 中,它计算数据点的质心,可能不是实际数据点的坐标。 在 PAM 中,随机选择 k 个数据点作为簇的中心点,并计算所有数据点与簇中心点之间的距离。

阅读:数据分析与数据科学

3. 基于密度的聚类方法

此方法基于数​​据点的密度创建集群。 随着越来越多的数据点位于同一区域中,这些区域变得密集,并且这些区域被视为集群。 远离密集区域或数据点数量非常少的区域的数据点被视为异常值或噪声。 以下算法基于此方法: –

  • DBSCAN(基于密度的噪声应用空间聚类) : – DBSCAN 根据数据点的距离创建聚类。 它将同一邻域中的数据点组合在一起。 要被视为一个集群,特定数量的数据点必须位于该区域中。 它需要两个参数——eps 和最小点——eps 表示数据点应该被视为邻居的接近程度,最小点是必须位于该区域内才能被视为集群的数据点的数量。
  • OPTICS(识别聚类结构的排序点) : – 它是 DBSCAN 算法的修改。 DBSCAN 算法的局限性之一是当数据点在数据空间中均匀分布时,它无法创建有意义的集群。 为了克服这个限制,OPTICS 算法采用了另外两个参数——核心距离和可达距离。 核心距离通过为其定义一个值来指示数据点是否为核心点。 可达距离定义为核心距离的最大值和用于计算两个数据点之间距离的距离度量值。

4. 基于网格的聚类方法

这种方法的思想与其他常用方法不同。 该方法将整个数据空间表示为一个网格结构,它包含多个网格或单元格。 它更多地遵循空间驱动的方法,而不是数据驱动的方法。 换句话说,它更关心数据点周围的空间,而不是数据点本身。

因此,该算法收敛速度更快,并大大降低了计算复杂度。 通常,算法通过将数据空间划分为多个单元格来初始化聚类,从而创建网格结构。 然后它计算这些细胞的密度并根据它们的密度对它们进行分类。 STING(统计信息网格方法)、WaveCluster、CLIQUE(Quest 中的聚类)等算法都属于这一类。

5. 基于模型的聚类方法

此方法假设数据是由概率分布的混合生成的。 这些分布中的每一个都可以被视为一个集群。 它试图优化数据和模型之间的拟合。 可以使用期望最大化、概念聚类等算法来估计模型的参数。

6. 基于约束的聚类方法

该方法试图找到满足面向用户的约束的集群。 它属于半监督方法。 这种方法允许用户根据自己的喜好创建集群。 当我们正在寻找一些具有特定特征的集群时,这会派上用场。

但在这个过程中,由于形成的聚类集中在用户偏好上,一些潜在的特征和有洞察力的聚类可能无法形成。 遵循这种方法的算法是 COP K-Means、PCKMeans(成对约束 K-Means)和 CMWK-Means(约束 Minkowski 加权 K-Means)。

另请阅读:数据科学项目理念

从世界顶级大学在线学习数据科学课程获得行政 PG 课程、高级证书课程或硕士课程,以加快您的职业生涯。

结论

事实证明,聚类算法在从数据中提供洞察力以提高业务生产力方面非常有效。 各种组织中使用的通用算法可能会为您提供预期的结果,但非正统的也值得一试。 本文重点介绍什么是聚类以及如何将其用作数据挖掘的一部分。 它还列出了集群的一些用途,集群如何在现实生活中使用,以及集群中不同类型的方法。

如果您想了解数据科学,请查看 IIIT-B 和 upGrad 的数据科学执行 PG,它是为在职专业人士创建的,提供 10 多个案例研究和项目、实用的实践研讨会、行业专家的指导、1-与行业导师面对面交流,400 多个小时的学习和顶级公司的工作协助。

凝聚聚类的优缺点是什么?

AGNES 首先认识到每个数据点都有自己的集群,即使有 n 个数据行,算法也会从 n 个集群开始。 然后,根据在 DIANA 中测量的距离,迭代地连接最相似的集群以形成更大的集群。 进行迭代,直到我们得到一个包含所有数据点的大型集群。
优点:
1. 虽然用户必须定义​​一个划分阈值,但不需要事先知道集群的数量。
2. 可以简单地应用于各种数据类型,并且可以为从各种来源获得的数据产生可靠的结果。 因此,它具有广泛的应用。
缺点:
1.集群划分(DIANA)或组合(AGNES)是相当严格的,一旦完成,在后续的迭代或重新运行中不能逆转或重新分配。
2. 它对所有 n 个数据点具有很高的时间复杂度,大约为 O(n^2logn),因此不能用于更大的数据集。
3. 无法处理异常值和噪声

GMM 中的期望最大化是什么?

我们假设数据点与高斯混合模型中的高斯分布相匹配,与先前方法中的限制相比,这绝不是一个约束。 此外,这个假设可以导致关键的集群形状选择标准——也就是说,现在可以测量集群形式。 两个最常见和最简单的指标——均值和方差——用于量化数据。
期望最大化,一种优化函数,用于确定均值和方差。 该函数从一组随机高斯参数开始,例如,并检查假设是否确认样本属于集群 c。 之后,我们继续进行最大化步骤,其中包括更新高斯参数以适应分配给集群的点。 最大化阶段的目标是增加样本属于聚类分布的概率。

聚类有哪些应用?

让我们看一下集群的一些业务用途以及它如何适合数据挖掘。
1.它是搜索引擎算法的基础,要求将相似的对象放在一起,不相似的对象忽略。
2. 聚类算法已经证明了它们在使用生物信息学中的图像分割从各种医学成像中检测恶性细胞、消除人为错误和其他偏差方面的有效性。
3. Netflix 已利用聚类为其观众创建电影推荐。
4. 聚类分析,将文章分成一组相关的主题,可以用来总结新闻。
5. 求职者的简历可以根据技能、经验、特长、项目类型、专长等多种变量进行分类,让潜在雇主与合适的人建立联系。