无监督学习中7种不同类型的聚类方法
在本文中,我们将分析无监督机器学习中不同类型的聚类算法;这些算法将通过参数、可扩展性、用例和几何来区分。
这些方法的主要重点是通过一些距离测量公式找到数据中的簇或组。聚类方法很简单,因为在这些方法中我们很少进行训练和测试。
不使用训练和测试集的原因是这些方法使用数据相似度、基于距离度量、基于密集数据分组、基于特征树方法等。
不同类型的聚类算法
k-means聚类
该方法基于距离度量、具有相等方差的数据相似性。
参数:此方法需要指定簇的数目。
可扩展性:k-means可以处理大量样本,在mini-batch的帮助下,它还可以处理中等数量的集群。
用例:它用于偶数簇,它具有平坦的几何体,簇数有限制。
几何:它使用距离度量来查找数据中的组相似性。
亲和传播聚类
该方法基于发送到数据对的消息,这些数据会更新到最终聚类的最终样本。
参数:该方法需要两个参数,第一个参数是控制范例数量的preference,第二个参数是damping,避免消息中的振荡。
可扩展性:它不能随着样本数量的增加而扩展。
用例:它用于不均匀的集群大小,它具有非平面几何,它适用于归纳方法,即从想法的数量开始到它们的最终关系。
几何:它使用图形距离度量来查找最近的邻居。
均值漂移聚类
该方法是在blob方法的基础上,利用该区域内点的均值来寻找聚类。
参数:该方法需要带宽来检测区域的大小。
可扩展性:它不能随样本数量扩展,即它需要更多的最近邻多次搜索。
用例:它用于不均匀的集群大小,它具有非平面几何,它适用于归纳方法,即从想法的数量开始到它们的最终关系。它与亲和方法相同。
几何:它使用距离度量来查找数据中的组相似性。
BIRCH 聚类
这种方法基于层次聚类特征树(CFT),可以很好地处理噪声。
参数:此方法参数基于使用树和全局聚类的分支因子。
可扩展性:BIRCH可以处理大量样本,也可以处理中等数量的集群。
用例:它用于不均匀的簇大小,它有一个平坦的几何结构,它采用归纳法,即从想法的数量开始到它们的最终关系。它在异常点去除和数据约简方面有很好的效果。
几何:它使用欧几里德距离度量生成簇。
DBSCAN 聚类
该方法基于数据点的密度,以半径和最小点信息覆盖最大数据点。
参数:此方法参数基于邻域大小。
可扩展性:DBSCAN可以处理大量样本,也可以处理中等数量的集群。
用例:它用于不均匀的簇大小,它有一个非平坦的几何体,它使用的是直传方法,即用于聚类的未标记点。
几何:它使用到最近点的距离度量来生成簇。
谱聚类(光学聚类)
该方法基于距离值来获得可达距离,并对属性进行排序。
参数:此方法参数基于最小群集成员资格。
可扩展性:光学系统可用于大量样本,也可用于中等数量的集群。
用例:它用于不均匀的簇大小,它有一个非平坦的几何体,它使用的是直传方法,即用于聚类的未标记点。它也适用于不同大小的集群。
几何:它使用点之间的距离度量。
凝聚聚类
该方法基于分层聚类,将聚类合并到另一个聚类。
参数:此方法需要链接标准来合并集群。
可扩展性:凝聚对大量样本和集群数量起作用。
用例:它已用于许多集群大小,它具有连接性约束,并适用于转导方法,即用于未标记的点进行聚类。
几何:它使用成对距离度量来制作集群。
接下来的推文学姐会一一拆解这些聚类进行讲解,大家记得关注学姐公众号,不要错过干货好文咯!
文章来源:
https://pub.towardsai.net/machine-learning-16c8ccc2c7b8
免责声明:所载内容来源互联网,仅供参考。转载稿件版权归原作者和机构所有,如有侵权,请联系我们删除。
