欢迎光临散文网 会员登陆 & 注册

李宏毅2020机器学习深度学习(完整版)国语

2023-06-11 22:31 作者:Boramiyu  | 我要投稿

引言:个人认为P3的Gradient Descent李老师讲课的顺序有点杂,所以为了方便学习,把这节课的大致脉络梳理一下


Gradient Descent_1 P5 - 00:02


对梯度下降的简单回顾


Gradient Descent_1 P5 - 06:35


改进GD的第一个方法:微调学习率

  • 为了让学习率随时间的推移,可以自己发生改变,我们引出了自适应学习率的方法。
  • 采用偏导的均方根(RMS)和一个随时间变化的函数去限制我们的Learning rate。其中采用RMS的道理是我们每个在更新梯度的时候,需要参考上几次梯度的大小
  • 
    Gradient Descent_1 P5 - 21:35
    
    这里开始是在上面对提出的自适应学习率的方法进行一个解析性的证明。


Gradient Descent_1 P5 - 31:19


改进GD的第二个方法:SGD

  • SGD的基本思想是每一次GD都对所有的参数求一次偏导实在是太费资源了,所以改为每对一个参数求导,就更新一次参数。
  • 当然其实也不止一个,可能一次对好几次参数求偏导,组成一个miniBatch。


Gradient Descent_1 P5 - 35:47


改进GD的第三个方法:特征缩放

  • 对于输入的x1和x2,如果他们的数量级差距过大,对参数w的敏感度就不一样,对于这个函数的贡献就会不公平。所以做特征缩放的理由就是让输入的特征尽可能的公平
  • 做法就是做一个归一化操作,减去均值再除以标准差。很标准的一个归一化
  • 其实在做图像处理,自然语言处理,信号处理等等,对数据集进行归一化都是首要的事情。


Gradient Descent_1 P5 - 42:35


Why Gradient Descent Works?

这里就不是在讲GD的优化了,而是从泰勒展开式的视角去推导去GD的表达式。稍微有一点点数学基础就能慢慢搞懂。

顺便跟大家分享某985的一道复试面试:请问泰勒展开式有什么应用?这个时候我们就可以把这个梯度下降说上啦。梯度下降特别还能联系上高数学到的Taylor Series,非常的完美。

以上便是我整理的视频脉络,若有出错,欢迎指正,谢谢您的耐心观看!

李宏毅2020机器学习深度学习(完整版)国语的评论 (共 条)

分享到微博请遵守国家法律