GLU

Gated Linear Units

Pasted image 20231006232311.png

WV 是需要训练的参数)

σ(XV+c) 这部分类似于 LSTM 中的门控,区别是 GLU 不依靠前一个时刻的信息来产生门控变量。


实现:
Pasted image 20231006232655.png

一个改进实现:(减少了矩阵乘法次数)
Pasted image 20231006232706.png

参考:GLU: Gated Linear Unit implementation | by Alvaro Durán Tovar | Deep Learning made easy | Medium