欢迎光临散文网 会员登陆 & 注册

[吃瓜笔记]第3章

2023-07-27 20:52 作者:彤蛹_Amy  | 我要投稿

第3章 线性模型

本章的线性回归和对率回归分别是回归和分类任务的常用算法。

3.1 基本形式

线性模型一般形式(向量):

f(x)%3D%5Comega%20%5ETx%2Bb

其中,x是一个示例的属性描述。

线性模型的可解释性很好。

3.2 线性回归

线性回归:学得一个线性模型以尽可能准确地预测实值输出标记。

离散属性处理:

  • 有“序”关系:连续化为连续值。比如身高的高矮。

  • 无“序”关系:有k个属性值,则转换为k维向量。比如“是否是西瓜”、“是否是南瓜”、“是否是黄瓜”。

最小二乘法:基于均方误差最小化来进行模型求解的方法。(最小二乘法不仅限用于线性回归)在线性回归中,最小二乘法试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。

正交回归和线性回归的区别

# 补充知识

来源:https://www.bilibili.com/video/BV1Mh411e7VU

机器学习三要素:

  1. 模型:数据分布的大致形式(是一元一次函数,还是一元二次函数等);

  2. 算法:通常是要产生一个损失函数(根据评价标准确定);

  3. 策略:求解损失函数,得到最优模型。

对于线性回归模型,损失函数是所有样本点和预测点的欧氏距离之和:

E_%7B(%5Comega%20%2Cb)%7D%3D%5Csum%5Cnolimits_%7Bi%3D1%7D%5Em%20(y_i%20-%5Comega%20x_i%20-b)%5E2

线性回归模型是机器学习算法中少有的能求出闭式解(即解析解)的模型。解析过程和结果见西瓜书和南瓜书,在此略过。可使用的策略为最小二乘法极大似然估计

若想令模型预测值逼近y的衍生物,则可将回归模型写为:

%5Cln%20y%20%3D%5Comega%5ETx%2Bb

虽然上式在形式上还是线性回归,但实际上是非线性函数映射

再推广到更一般的情形,可以将上式写为:

y%3Dg%5E%7B-1%7D(%5Comega%5ETx%2Bb)

其中,g(%5Ccdot%20)为单调可微函数,连续并充分光滑,称为联系函数。

3.3 对数几率回归

简称“对率回归”。找到一个g(%5Ccdot%20)使得模型可以进行二分类任务,模型为:

y%3D%5Cfrac%7B1%7D%7B1%2Be%5E%7B-(%5Comega%5ETx%2Bb)%7D%7D%20

与线性模型相比,引入了Sigmoid函数

“三要素”:

  • 策略:损失函数为相对熵(KL散度)交叉熵。具体形式与信息论有关。略。

  • 算法:梯度下降或牛顿法。略。

3.4 线性判别分析(LDA)

LDA是一种经典的二分类模型,其核心思想与主成分分析相差无几。其思想如下图所示。

LDA的核心思想

策略:最大化广义瑞利商

算法:拉格朗日乘子法 / 转换为广义特征值问题求解

3.5-3.7内容暂略

[吃瓜笔记]第3章的评论 (共 条)

分享到微博请遵守国家法律