北大公开课-人工智能基础 61 机器学习的范型之无监督学习范式


对于没有标注的数据进行机器学习
(无标准答案的自学习机制)

有监督学习和无监督学习是机器学习中的两个重要分支。有监督学习是指在训练数据中有标签,即已知每个样本的类别或结果,模型通过学习这些标签来预测新数据的类别或结果。而无监督学习则是在训练数据中没有标签,模型通过对数据的聚类、降维等方式来发现数据的内在结构和规律,从而实现对数据的分类、异常检测等任务。
总体来说,有监督学习需要更多的人工干预和标注,但是其预测效果更加准确;而无监督学习则更加自动化,但是其预测效果可能会受到数据质量等因素的影响。



对于卫星图片的无监督学习样例


【聚类算法】
聚类算法是一种无监督学习方法,它将相似的对象归到同一个簇中。常用的聚类算法有以下几种¹:
- 划分法:K-Means、K-Medoids、CLARANS、BIRCH等。
- 层次法:AGNES、DIANA、BIRCH等。
- 基于密度的聚类:DBSCAN、OPTICS等。
- 基于网格的聚类:STING、CLIQUE等。
- 模型算法:EM算法、GMM等。
- 图论聚类法:Spectral Clustering等。
这些算法各有特点,适用于不同的数据集和场景。例如,K-Means是一种划分方法,它将数据集分成K个簇,每个簇由距离该簇中心最近的点组成。DBSCAN是一种基于密度的聚类方法,它将高密度区域划分为一个簇,并将低密度区域视为噪声。OPTICS是DBSCAN的扩展,它可以处理具有不同密度的簇。

【密度估计】
密度估计是一种统计方法,用于估计随机变量的概率密度函数。常用的密度估计算法有以下几种¹:
- 参数化方法:高斯分布、正态分布、Beta分布等。
- 非参数化方法:直方图、核密度估计等。
其中,核密度估计是一种常用的非参数化方法,它通过在每个数据点处放置一个核函数,然后将所有核函数加起来,得到概率密度函数的估计值。核函数通常是高斯分布或Epanechnikov分布³。

【降维算法】
降维算法是一种将高维数据转换为低维数据的技术,以便更好地理解数据的内在结构。常用的降维算法有以下几种:
- 主成分分析(PCA)
- 独立成分分析(ICA)
- 线性判别分析(LDA)
- 局部线性嵌入(LLE)
- 多维缩放(MDS)
- 非负矩阵分解(NMF)
- 核主成分分析(KPCA)
- 稀疏主成分分析(SPCA)
- 非线性降维(NLDR)

【无标注的有监督神经网络】是指一种无需标注数据集即可进行训练的神经网络。这种神经网络可以通过自监督学习的方式进行训练,即利用无标注数据集来预训练模型,然后再使用有标注数据集进行微调。自监督学习是一种无监督学习的方法,它通过利用数据本身的特征来进行学习,而不需要人工标注数据。





目前大部分的机器学习还是有监督学习,但是这需要事先准备好大量的数据,费时费力。
现实世界中大部分问题,还都属于无监督学习的类型。
