RNN

关键就是加入了 h 来保留序列直到其当前时间步的历史信息

Pasted image 20231006225945.png
其中:
x 为当前状态下数据的输入, h 表示接收到的上一个节点的输入。
y 为当前节点状态下的输出,而  为传递到下一个节点的输出。

对于一个序列,产生的 RNN 网络如下:
Pasted image 20231006230112.png

RNN 中,对于长度为 T 的序列,我们在迭代中计算这 T 个时间步上的梯度, 将会在反向传播过程中产生长度为 O(T) 的矩阵乘法链。当 T 较大时,可能导致 梯度消失和梯度爆炸 .

Pasted image 20231011202048.png