欢迎光临散文网 会员登陆 & 注册

[中英字幕]吴恩达机器学习系列课程

2021-08-02 16:31 作者:0对抗的打工皇帝  | 我要投稿


1-2.什么是机器学习? P2 - 00:04


机器学习的三个阶段:

经验E:和程序员下几万盘棋、观察是否将邮件标为垃圾邮件

任务T:下棋、判断邮件是否为垃圾邮件

性能度量P:棋局是否胜利,正确将垃圾邮件归类的数量


机器学习算法:

监督学习、无监督学习


1-3.监督学习 P3 - 03:01


监督学习:给出数据集

  1. 回归问题:连续,针对大批量进行预测
  2. 分类问题:离散,针对单个。。。。。


1-4.无监督学习 P4 - 02:52


无监督学习:没有给出数据集的正确答案(未辨别数据类型)

  1. 聚类算法:将已分类的信息分成“簇”
  2. 鸡尾酒会算法:将混杂的信息分离出来


2-1.模型描述 P5 - 06:24


在学习后,将得出一个假设函数h:输入平米数可得出房价

线性回归:将数据拟合成线性函数


2-2.代价函数 P6 - 07:41


代价函数:平方误差函数

目的是找出代价函数最小时的θ1、θ0

通过代价函数的表达式可以看出,当代价函数最小时,拟合程度最好。


2-5.梯度下降 P9 - 11:19


梯度下降法:用来计算代价函数最小值

α:学习率,控制以多大幅度更新参数θ

与α相乘的偏微分决定了移动的方向始终是向下的


2-7.线性回归的梯度下降 P11 - 03:30


针对线性回归的梯度下降算法:h(x)=θ0+θ1*x


4-1.多功能 P18 - 08:21


h(x)=(θ^T)*x θ,x均为n维向量

多元线性回归,利用多个特征值来预测


4-2.多元梯度下降法 P19 - 00:01


多元梯度下降法:x变为向量。


4-3.多元梯度下降法演练.I.–.特征缩放 P20 - 03:14


为了让梯度下降更快的两种方法:

  1. 特征缩放:有时代价函数会变成细长的椭圆形,下降就会曲折缓慢,通过计算将特征值的范围缩小到*(0,1)会使椭圆接近正圆,下降就会变得快速。
  2. 均值归一化:0<size<2000,1<bedrooms<5

x1:=(x1-μ1)/s1

x1:特征值。μ1:特征值平均值。s1:特征值范围


4-4.多元梯度下降法II.–.学习率 P21 - 07:31


当学习率α

过小时:迭代会很慢

过大时:J(θ)可能不会每次迭代都下降,也可能不收敛。

解决方法:绘制J(θ)的图像、观察。


4-6.正规方程(区别于迭代方法的... P23 - 15:08


计算θ的方法

  1. 梯度下降法:需要选择α,需要迭代,当维度很大时仍然好用
  2. 正规方程法:n大于10000时效果不好

X数据集中的特征值组成的向量

y数据集中的输出组成的向量


4-7.正规方程在矩阵不可逆情况下... P24 - 05:21


不可逆的原因:

  1. 特征值线性相关,删掉多余的。
  2. 太多的特征值,删掉一些,或者正规化。


6-1.分类 P32 - 07:46


关于分类的问题一般不用线性回归算法

Logistic Regression:分类算法

让假设函数的范围限制在(0,1)

0<=h(x)<=1


6-2.假设陈述 P33 - 03:03


logistic算法:

h(x)=P(y=1|x;θ)

代表着当输入为x时,y为1的概率,这个概率的参数时θ


6-3.决策界限 P34 - 08:38


决策界限:区分y=0,y=1的线


6-4.代价函数 P35 - 04:45


logistic回归的代价函数:


6-5.简化代价函数与梯度下降 P36 - 00:12


用梯度下降法拟合logistics回归的参数

logistics回归:


6-7.多元分类:一对多 P38 - 02:46


一对多问题:将多个问题化为多个独立的二元问题,也就是有多个分类器y=i(y实际值,i预测值),把x输入到多个分类器中,哪个概率最高就是哪个类。


7-1.过拟合问题 P39 - 07:47


当用过高阶次的多项式拟合,就会出现过拟合(图三)

解决方法:

  1. 减少特征变量
  2. 正则化


7-2.代价函数 P40 - 09:44


正则化

λ:正则化参数,过大将导致对每个参数的惩罚过大,θ=0.

Σ(θ^2):正则化项,缩小每个参数


7-3.线性回归的正则化 P41 - 04:47


正则化后的线性回归相当于把参数乘以一个比1小一点的数 (1-α(λ/m))<1


8-6.例子与直觉理解Ⅱ P48 - 02:47


神经网络可以实现逻辑运算


9-2.反向传播算法 P51 - 02:59


δ(l)j:l层节点j的误差

a(l)j:l层单元j的激活值


9-5.梯度检测 P54 - 02:05


梯度检测:用来验证反向传播算法


9-6.随机初始化 P55 - 04:44


如果权重都为0的话,hθ只能得到一个特征

所以要将权重θ随机初始化在[-ε,ε]。


9-7.组合到一起 P56 - 04:26


  1. 训练神经网络:
  2. 将θ随机初始化在[-ε,ε],接近于0
  3. 进行前向传播算法得到h(θ)
  4. 计算J(θ)
  5. 进行反向传播算法算出J(θ)的偏导
  6. 梯度检查
  7. 使用最优化算法


10-1.决定下一步做什么 P58 - 02:32


解决高方差

  1. 收集更多数据,
  2. 选用更少特征以减少过拟合
  3. 增加λ


解决高偏差

  1. 更多特征
  2. 增加多项式特征(x^2,x1x2)
  3. 减小λ


10-2.评估假设 P59 - 00:08


线性回归的测试

  1. 从训练集中得到θ
  2. 计算误差


分类问题的测试

  1. 得到θ
  2. 计算误差

错误分类误差


10-3.模型选择和训练、验证、测试集 P60 - 01:48


模型选择:选择合适的多项式

60%:40%分成训练集和测试集

通过测试机选择多项式的次数,然后仍在测试集上计算误差会出现问题,所以要分为:

60% :20% : 20%

训练集 交叉验证集 测试集


10-4.诊断偏差与方差 P61 - 00:59


高偏差(欠拟合):

Jcv,Jtrain都很大

高方差(过拟合):

Jcv>>Jtrian


10-5.正则化和偏差、方差 P62 - 03:44


选择正则化参数λ 0 0.01 0.02 0.04 0.08 ........10.24共12个

带入每个λ最小化J(θ)以得到θ

用验证集评价,得出每个θ在验证集上平均的误差平方和

选最小的误差平方和对应的θ1

观察θ1在测试集上的表现


10-6.学习曲线 P63 - 00:35


算法处于高方差时的特点:Jcv误差和Jtrain误差相差很大

。。。。。误差。。。。:。。。。。。。。。在足够多样本时相差不大

















[中英字幕]吴恩达机器学习系列课程的评论 (共 条)

分享到微博请遵守国家法律