欢迎光临散文网 会员登陆 & 注册

无监督学习中7种不同类型的聚类方法

2021-11-25 18:11 作者:深度之眼官方账号  | 我要投稿

在本文中,我们将分析无监督机器学习中不同类型的聚类算法;这些算法将通过参数、可扩展性、用例和几何来区分。


这些方法的主要重点是通过一些距离测量公式找到数据中的簇或组。聚类方法很简单,因为在这些方法中我们很少进行训练和测试。


不使用训练和测试集的原因是这些方法使用数据相似度、基于距离度量、基于密集数据分组、基于特征树方法等。


不同类型的聚类算法


k-means聚类


该方法基于距离度量、具有相等方差的数据相似性。


  • 参数:此方法需要指定簇的数目。


  • 可扩展性:k-means可以处理大量样本,在mini-batch的帮助下,它还可以处理中等数量的集群。


  • 用例:它用于偶数簇,它具有平坦的几何体,簇数有限制。


  • 几何:它使用距离度量来查找数据中的组相似性。


亲和传播聚类


该方法基于发送到数据对的消息,这些数据会更新到最终聚类的最终样本。


  • 参数:该方法需要两个参数,第一个参数是控制范例数量的preference,第二个参数是damping,避免消息中的振荡。


  • 可扩展性:它不能随着样本数量的增加而扩展。


  • 用例:它用于不均匀的集群大小,它具有非平面几何,它适用于归纳方法,即从想法的数量开始到它们的最终关系。

  • 几何:它使用图形距离度量来查找最近的邻居。


均值漂移聚类


该方法是在blob方法的基础上,利用该区域内点的均值来寻找聚类。


  • 参数:该方法需要带宽来检测区域的大小。


  • 可扩展性:它不能随样本数量扩展,即它需要更多的最近邻多次搜索。


  • 用例:它用于不均匀的集群大小,它具有非平面几何,它适用于归纳方法,即从想法的数量开始到它们的最终关系。它与亲和方法相同。


  • 几何:它使用距离度量来查找数据中的组相似性。


BIRCH 聚类


这种方法基于层次聚类特征树(CFT),可以很好地处理噪声。


  • 参数:此方法参数基于使用树和全局聚类的分支因子。


  • 可扩展性:BIRCH可以处理大量样本,也可以处理中等数量的集群。


  • 用例:它用于不均匀的簇大小,它有一个平坦的几何结构,它采用归纳法,即从想法的数量开始到它们的最终关系。它在异常点去除和数据约简方面有很好的效果。


  • 几何:它使用欧几里德距离度量生成簇。


DBSCAN 聚类


该方法基于数据点的密度,以半径和最小点信息覆盖最大数据点。


  • 参数:此方法参数基于邻域大小。


  • 可扩展性:DBSCAN可以处理大量样本,也可以处理中等数量的集群。


  • 用例:它用于不均匀的簇大小,它有一个非平坦的几何体,它使用的是直传方法,即用于聚类的未标记点。


  • 几何:它使用到最近点的距离度量来生成簇。


谱聚类(光学聚类


该方法基于距离值来获得可达距离,并对属性进行排序。


  • 参数:此方法参数基于最小群集成员资格。


  • 可扩展性:光学系统可用于大量样本,也可用于中等数量的集群。


  • 用例:它用于不均匀的簇大小,它有一个非平坦的几何体,它使用的是直传方法,即用于聚类的未标记点。它也适用于不同大小的集群。


  • 几何:它使用点之间的距离度量。


凝聚聚类


该方法基于分层聚类,将聚类合并到另一个聚类。


  • 参数:此方法需要链接标准来合并集群。


  • 可扩展性:凝聚对大量样本和集群数量起作用。


  • 用例:它已用于许多集群大小,它具有连接性约束,并适用于转导方法,即用于未标记的点进行聚类。


  • 几何:它使用成对距离度量来制作集群。


接下来的推文学姐会一一拆解这些聚类进行讲解,大家记得关注学姐公众号,不要错过干货好文咯!


文章来源:

https://pub.towardsai.net/machine-learning-16c8ccc2c7b8


免责声明:所载内容来源互联网,仅供参考。转载稿件版权归原作者和机构所有,如有侵权,请联系我们删除。



无监督学习中7种不同类型的聚类方法的评论 (共 条)

分享到微博请遵守国家法律