北大公开课-人工智能基础 57 机器学习的任务之聚类

2023-04-04 10:39 作者:朝朝暮暮1895 0人读过 | 我要投稿

简单来说，聚类就是将数据分成不确定的组（怎么分组，分成几组，用什么标准分组，都是基于具体的数据来确定的。）

聚类没有训练数据。——无监督学习

而分类是事先就想好分成特定的组，事先已经确定好分组的规则和目的。

分类有训练数据。——有监督学习

这样看，聚类比分类更难。

聚类是机器学习中的一类无监督学习方法，其目标是将数据对象按照相似性分组的任务。聚类的形式化描述是：对于给定的数据集，将其划分为k个不相交的簇，使得每个簇内部的对象相似度较高，而不同簇之间的对象相似度较低123。例如，将一组人根据他们的年龄、性别、收入等特征分成不同的群体，以便更好地了解他们的行为和需求2。

选择合适的聚类算法需要根据具体的应用场景、数据特点、数据可视化或者聚类效果来综合考虑，从而达到最佳的效果。常见的聚类算法包括基于距离的聚类算法（例如K-Means、PAM、CLARANS等）和基于密度的聚类算法（例如DBSCAN、OPTICS等）1。

在选择聚类算法时，需要考虑以下几个因素2：

数据量：对于大规模数据集，可以使用基于采样的聚类算法。
数据类型：对于不同类型的数据，可以使用不同的距离度量方法。
聚类数量：对于已知聚类数量的情况，可以使用划分聚类算法；对于未知聚类数量的情况，可以使用层次聚类算法。
聚类形状：对于球形簇，可以使用K-Means等基于距离的聚类算法；对于任意形状簇，可以使用基于密度的聚类算法。
噪声：对于存在噪声的数据集，可以使用基于密度的聚类算法。

总之，在选择合适的聚类算法时需要根据具体情况进行综合考虑。1

基于连接性的聚类算法是一种基于距离的聚类方法，也称为分层聚类。该算法根据距离将对象连接起来形成簇（cluster），并且与附近的对象而不是较远的对象更为相关。例如，对于一组人，可以根据他们的年龄、性别、收入等特征计算出他们之间的距离，然后将距离较近的人连接起来形成簇12。

一个具体的例子是：假设有一组人，他们的年龄、性别、收入如下表所示。我们可以使用基于连接性的聚类算法将这些人分成不同的群体。

首先，我们可以计算出每个人之间的距离，例如使用欧氏距离2。然后，我们可以将距离较近的人连接起来形成簇。例如，如果我们将阈值设置为2000，则A和B会被连接起来形成一个簇；C和E会被连接起来形成另一个簇；D会单独形成一个簇2。

基于中心点的聚类算法是一种Partition-based methods一类的聚类算法，核心思想就是：初始化中心点，然后通过启发式算法，达到”类内的点都足够近，类间的点都足够远“的目标。常见的基于中心点的聚类算法有K-Means、K-Medoids等1。

以K-Means为例，其具体步骤如下：

随机选择k个数据点作为初始聚类中心。
对于每个数据点，计算其到k个聚类中心的距离，并将其归入距离最近的聚类中心所在的簇。
对于每个簇，重新计算其聚类中心。
重复步骤2和3，直到聚类中心不再发生变化或达到预定迭代次数。

基于多元正态分布的聚类算法是一种基于概率分布的聚类算法，也称为高斯混合聚类（Gaussian Mixture Model，GMM）1。它假设每个簇符合不同的高斯分布，也就是多元正态分布，每个簇内的数据会符合一定的数据分布12。

以GMM为例，其具体步骤如下：

随机初始化k个高斯分布的参数。
E步：计算每个样本属于每个高斯分布的概率。
M步：根据E步计算出的概率重新估计高斯分布的参数。
重复步骤2和3，直到收敛1。

基于密度的聚类算法是一种基于概率分布的聚类算法，它假设簇是由数据密度相对较高的区域组成的，可以在有噪音的数据中发现各种形状和各种大小的簇。其中，DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是该类方法中最典型的代表算法之一。

以DBSCAN为例，其具体步骤如下：