北大公开课-人工智能基础 60 机器学习的范型之有监督学习范式


从数据中学习——机器学习
从标记过的数据中学习——有监督机器学习






【SVM】
支持向量机(Support Vector Machine,SVM)是一种二分类模型,其基本模型定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。SVM还包括核技巧,这使它成为实质上的非线性分类器。SVM的学习策略就是间隔最大化,可形式化为一个求解凸二次规划(convex quadratic programming)的问题,也等价于正则化的合页损失函数(hinge loss)最小化问题¹³。
SVM是一种非常优秀的分类算法,它具有良好的泛化能力和鲁棒性。在实际应用中,SVM已经被广泛应用于模式识别、图像分割、文本分类、手写字体识别等领域²⁴。
【k-means】
K均值算法(K-means Clustering Algorithm)是一种常用的聚类算法,它的核心思想是用指定数量的聚类中心(即K),将数据集中的样本划分成K个类别,使每个样本点到最近的聚类中心的距离最小¹⁴。K均值算法是一种基于距离度量的聚类算法,它的优点是简单、快速,容易解释和实现²⁵。
K均值算法可以用于图像分割、文本分类、数据挖掘等领域²³。
【Q-learning】
Q-learning是一种无模型的增强学习技术,它可以在MDP问题中寻找一个最优的动作选择策略。Q-Learning是强化学习方法的一种,它是一种基于价值的、离轨策略的、无模型的和在线的强化学习算法²³。Q-learning算法是一种基于贪心策略的算法,它通过不断地更新Q值来实现最优策略的搜索¹。
Q-Learning算法是一种比较简单的强化学习算法,它在很多领域都有应用,如机器人控制、游戏AI等⁴⁵。



通过标注过的,训练过的数据来训练系统,提高系统的效率




【有监督学习的具体步骤】
1. 准备数据:如果没有现成的数据,需要采集或者爬取数据,记住数据要带标签的;如果数据仓库或者是数据库有相应的数据,你需要将数据取出来,特征尽量多;如果只是学习,你可以使用公开的数据集。
2. 数据预处理:包括数据清洗、特征选择、特征变换、特征降维等。
3. 特征工程:根据问题的需求,对特征进行处理和提取。
4. 模型选择:选择适合问题的模型。
5. 模型训练:使用训练集对模型进行训练。
6. 模型评估:使用测试集对模型进行评估。
7. 模型调优:根据评估结果对模型进行调优。
以上是有监督学习的基本步骤。¹²







分类算法和回归算法的区别在于输出变量的类型。分类是指当输出变量是分类的,即具有2个或更多数据类型时使用。回归是指当输出变量是连续的,即具有实数值时使用。¹²
分类算法和回归算法的区别还有:
- 目的不同:分类算法的目的是预测输入变量所属的类别,而回归算法的目的是预测输入变量的值。
- 本质不同:分类算法是离散型问题,而回归算法是连续型问题。
- 结果不同:分类算法输出的结果是类别标签,而回归算法输出的结果是实数值。

排名算法是指将一组对象按照某种规则排序的算法。排名算法的主要步骤包括:
1. 确定评价指标:评价指标是用来衡量对象优劣的标准,例如,网页排名算法中,评价指标可以是网页的点击率、访问量等。
2. 收集数据:收集与评价指标相关的数据。
3. 数据预处理:对收集到的数据进行清洗、去重、归一化等处理。
4. 确定权重:对不同的评价指标进行加权,得到每个对象的综合评价值。
5. 排序:按照综合评价值对对象进行排序。






有监督学习的几种变体

