57 长短期记忆网络（LSTM）【动手学深度学习v2】

2022-08-29 11:14 作者:如果我是泡橘子 0人读过 | 我要投稿

长短期记忆网络(LSTM)

门

长短期记忆网络的设计灵感来自于计算机的逻辑门
长短期记忆网络引入了记忆元(memory cell)，或简称为单元(cell)（有些文献认为记忆元是隐状态的一种特殊类型，它们与隐状态具有相同的形状，其设计目的是用于记录附加的信息）
长短期记忆网络有三个门:忘记门（重置单元的内容，通过专用机制决定什么时候记忆或忽略隐状态中的输入）、输入门（决定何时将数据读入单元）、输出门（从单元中输出条目）,门的计算和 GRU 中相同,但是命名不同
忘记门(forget gate):将值朝 0 减少
输入门(input gate):决定是否忽略掉输入数据
输出门(output gate):决定是否使用隐状态

类似于门控循环单元，当前时间步的输入和前一个时间步的隐状态作为数据送入长短期记忆网络的门中，由三个具有 sigmoid 激活函数的全连接层处理，以计算输入门、遗忘门和输出门的值（这三个门的值都在 0~1 的范围内）

候选记忆单元（candidate memory cell）

记忆单元

在长短期记忆网络中，通过输入门和遗忘门来控制输入和遗忘（或跳过）：输入门 It 控制采用多少来自 Ct tilde 的新数据，而遗忘门 Ft 控制保留多少过去的记忆元 C(t-1) 的内容
如果遗忘门始终为 1 且输入门始终为 0 ，则过去的记忆元 C(t-1) 将随时间被保存并传递到当前时间步（引入这种设计是为了缓解梯度消失的问题，并更好地捕获序列中的长距离依赖关系）
上一时刻的记忆单元会作为状态输入到模型中
LSTM 和 RNN/GRU 的不同之处在于: LSTM 中的状态有两个, C 和 H
长短期记忆网络（LSTM） P1 - 04:18

隐状态

在长短期记忆网络中，隐状态 Ht 仅仅是记忆元 Ct 的 tanh 的门控版本，因此确保了 Ht 的值始终在 -1~1 之间
tanh 的作用:将 Ct 的值限制在 -1 和 1 之间
Ot 控制是否输出, Ot 接近 1 ,则能有效地将所有记忆信息传递给预测部分; Ot 接近 0 ,表示丢弃当前的 Xt 和过去所有的信息，只保留记忆元内的所有信息，而不需要更新隐状态

总结

1 LSTM 和 GRU 所想要实现的效果是差不多的,但是结构更加复杂

2 长短期记忆网络包含三种类型的门：输入门、遗忘门和输出门

3 长短期记忆网络的隐藏层输出包括“隐状态”和“记忆元”。只有隐状态会传递到输出层，而记忆元完全属于内部信息

4 长短期记忆网络可以缓解梯度消失和梯度爆炸

5 长短期记忆网络是典型的具有重要状态控制的隐变量自回归模型。多年来已经提出了其他许多变体，例如，多层、残差连接、不同类型的正则化。但是由于序列的长距离依赖性，训练长短期记忆网络和其他序列模型（如门控循环单元）的成本较高

Q&A

4 老师,我们讲的 nn.GRU 输出第一个参数是输出 Y ,第二个参数是 state .我们的图和公式里都只有 state 的计算,请问输出 Y 是怎么计算的?
QA P3 - 02:37

----end----

其他参考:

1 <动手学深度学习>,PPT,https://courses.d2l.ai/zh-v2/assets/pdfs/part-3_5.pdf

2 <动手学深度学习>,教材,https://zh-v2.d2l.ai/chapter_recurrent-modern/lstm.html

标签：

57 长短期记忆网络（LSTM）【动手学深度学习v2】的评论 (共条)