无监督学习中7种不同类型的聚类方法

2021-11-25 18:11 作者:深度之眼官方账号 0人读过 | 我要投稿

在本文中，我们将分析无监督机器学习中不同类型的聚类算法；这些算法将通过参数、可扩展性、用例和几何来区分。

这些方法的主要重点是通过一些距离测量公式找到数据中的簇或组。聚类方法很简单，因为在这些方法中我们很少进行训练和测试。

不使用训练和测试集的原因是这些方法使用数据相似度、基于距离度量、基于密集数据分组、基于特征树方法等。

不同类型的聚类算法

k-means聚类

该方法基于距离度量、具有相等方差的数据相似性。

参数：此方法需要指定簇的数目。
可扩展性：k-means可以处理大量样本，在mini-batch的帮助下，它还可以处理中等数量的集群。
用例：它用于偶数簇，它具有平坦的几何体，簇数有限制。
几何：它使用距离度量来查找数据中的组相似性。

亲和传播聚类

该方法基于发送到数据对的消息，这些数据会更新到最终聚类的最终样本。

参数：该方法需要两个参数，第一个参数是控制范例数量的preference，第二个参数是damping，避免消息中的振荡。
可扩展性：它不能随着样本数量的增加而扩展。
用例：它用于不均匀的集群大小，它具有非平面几何，它适用于归纳方法，即从想法的数量开始到它们的最终关系。
几何：它使用图形距离度量来查找最近的邻居。

均值漂移聚类

该方法是在blob方法的基础上，利用该区域内点的均值来寻找聚类。

参数：该方法需要带宽来检测区域的大小。
可扩展性：它不能随样本数量扩展，即它需要更多的最近邻多次搜索。
用例：它用于不均匀的集群大小，它具有非平面几何，它适用于归纳方法，即从想法的数量开始到它们的最终关系。它与亲和方法相同。
几何：它使用距离度量来查找数据中的组相似性。

BIRCH 聚类

这种方法基于层次聚类特征树（CFT），可以很好地处理噪声。

参数：此方法参数基于使用树和全局聚类的分支因子。
可扩展性：BIRCH可以处理大量样本，也可以处理中等数量的集群。
用例：它用于不均匀的簇大小，它有一个平坦的几何结构，它采用归纳法，即从想法的数量开始到它们的最终关系。它在异常点去除和数据约简方面有很好的效果。
几何：它使用欧几里德距离度量生成簇。

DBSCAN 聚类

该方法基于数据点的密度，以半径和最小点信息覆盖最大数据点。

参数：此方法参数基于邻域大小。
可扩展性：DBSCAN可以处理大量样本，也可以处理中等数量的集群。
用例：它用于不均匀的簇大小，它有一个非平坦的几何体，它使用的是直传方法，即用于聚类的未标记点。
几何：它使用到最近点的距离度量来生成簇。

谱聚类（光学聚类）

该方法基于距离值来获得可达距离，并对属性进行排序。

参数：此方法参数基于最小群集成员资格。
可扩展性：光学系统可用于大量样本，也可用于中等数量的集群。
用例：它用于不均匀的簇大小，它有一个非平坦的几何体，它使用的是直传方法，即用于聚类的未标记点。它也适用于不同大小的集群。
几何：它使用点之间的距离度量。

凝聚聚类

该方法基于分层聚类，将聚类合并到另一个聚类。

参数：此方法需要链接标准来合并集群。
可扩展性：凝聚对大量样本和集群数量起作用。
用例：它已用于许多集群大小，它具有连接性约束，并适用于转导方法，即用于未标记的点进行聚类。
几何：它使用成对距离度量来制作集群。

接下来的推文学姐会一一拆解这些聚类进行讲解，大家记得关注学姐公众号，不要错过干货好文咯！

文章来源：

https://pub.towardsai.net/machine-learning-16c8ccc2c7b8

免责声明：所载内容来源互联网，仅供参考。转载稿件版权归原作者和机构所有，如有侵权，请联系我们删除。

标签：