[吃瓜笔记]第9章
第9章 聚类学习
聚类是无监督学习的代表。
9.1 聚类任务
略。
9.2 性能度量
性能度量又称“有效性指标”。
有效性指标大致分为两类:
外部指标:与参考模型进行比较,常用的有Jaccard系数、FM指数、Rand指数。
内部指标:直接考察聚类结果,常用的有DB指数、Dunn指数
9.3 距离计算
距离度量函数需要满足的基本性质:
非负性;
同一性;
对称性;
直递性。
常用的度量距离有闵可夫斯基距离、欧式距离和曼哈顿距离。
上述的三个距离都属于“有序距离”。对于无序距离,可以采用VDM。
9.4 原型聚类
k均值算法:随机选初始点,然后看不同样本点离哪个初始点最近,来划分簇。不断迭代。可以设置迭代次数或最小调整阈值。
9.5 密度聚类
有以下几个概念:
-邻域
核心对象
密度直达
密度可达
密度相连

9.6 层次聚类
层次聚类是自底而上的。从多的往少的方向合并。
AGNES就是一种层次聚类算法。