关键就是加入了 h 来保留序列直到其当前时间步的历史信息
其中: x 为当前状态下数据的输入, h 表示接收到的上一个节点的输入。 y 为当前节点状态下的输出,而 ℎ′ 为传递到下一个节点的输出。
对于一个序列,产生的 RNN 网络如下:
RNN 中,对于长度为 T 的序列,我们在迭代中计算这 T 个时间步上的梯度, 将会在反向传播过程中产生长度为 O(T) 的矩阵乘法链。当 T 较大时,可能导致 梯度消失和梯度爆炸 .