欢迎光临散文网 会员登陆 & 注册

机器学习——梯度下降与泰勒公式

2023-06-22 13:17 作者:Vector永远的神  | 我要投稿

    在机器学习中常见的优化算法就是梯度下降的算法,本文旨在说明其与多元函数一阶泰勒公式之间的关系。

一元函数泰勒公式

二元函数每个自变量一次求一阶偏导,二阶偏导…………

二元函数二阶泰勒展开
变换为矩阵的形式

仅考虑一阶偏导数的前提下,把自变量xy合并成向量w,x0y0也就是w0,g(w0)表示梯度向量,在函数上寻找两点w1,w2,确保L(w1)> L (w2) ,但是w1和w2的大小关系并未专门说明,不一定存在特定的大小关系。

(w-w0)T表示二者之间的差的向量转置

    在w0=w1的邻域内展开,带入w=w2得到以下式子,移项后得左边小于等于0 ,右边也得小于等于0,导数值g(w1)和它的转置相乘一定大于0,在添加负号就小于零,加上一个学习率ε增加其一般性,就可以得到w2 = w1 - εg(w1).这个更新也就是实现了自变量w的更新,并且使得函数值L(w)变小了,这个就是梯度下降的过程。

梯度下降

    在这个过程中最关键的是学习率epsilon的设置,在满足泰勒展开式的条件中,w2和w1的间距应该很小,需要设置一个很小的值ε来防止等式偏差,在最后的收敛步骤上,如果ε过大可能L函数就无法收敛到最小值,而是会在最小值附近来回摆动,ε一般要小于0.1。

机器学习——梯度下降与泰勒公式的评论 (共 条)

分享到微博请遵守国家法律