欢迎光临散文网 会员登陆 & 注册

梯度求解中出现的梯度消失问题以及GRU解决此问题

2023-04-10 14:06 作者:Pasta_OldRuns  | 我要投稿


由于图中r部分会随着神经元增多不断重复乘积,当r<1在长程中会出现梯度越来越小即梯度消失,当r>1会出现越来越大直至爆炸(新输入的影响相较梯度过小无法继续训练更新参数)。

综上为实现长程依赖,解决梯度消失。通过使r<1使r=1即diag部分=1且u=1

即f`(Zt)=1和Ut=1

根据知识点1容易知道 

但是由于ht与xt之间变为线性这就导致丢弃了很多数据,因此要改造成非线性。

具体实现 Gated Recurrent Unit简称 GRU借助门来解决

用重置门实现了非线性下可能导致的饱和问题。

用更新门实现更新。

门控循环单元如下

长短期记忆神经网络(Long Short-Term Memory, LSTM )如下

不做推导(若在编程使用中可直接调用GRU无需知道原理),可自行查阅资料这里仅供了解。

梯度爆炸,设置截断即可缓解过大问题。较简单。

综上仅供了解。


梯度求解中出现的梯度消失问题以及GRU解决此问题的评论 (共 条)

分享到微博请遵守国家法律