梯度裁剪

RNN 中,对于长度为 T 的序列,我们在迭代中计算这 T 个时间步上的梯度, 将会在反向传播过程中产生长度为 O(T) 的矩阵乘法链。当 T 较大时,可能导致 梯度消失和梯度爆炸 .

Pasted image 20231011202048.png