正则化

L1 正则化:向损失函数中增加 λ|w|
L2 正则化:向损失函数中增加 {1 \over 2} \lambda \omega { #2}
(也可以同时使用两个正则化:λ1|w|+12λ2ω2
(一般用 L2 正则化

L1 正则化会让权重向量在最优化的过程中变得稀疏(即非常接近0),使用 L1 正则化的神经元最后使用的数据是那些最重要的输入数据的稀疏子集,同时对输入数据中的噪声不敏感。
L2 正则化后得到的权重向量大多是分散的小数字。

一种正则化手段,使用投影梯度下降限制每个神经元的参数 w 满足 ||w||2<c (即 wi2<c,一般 c 取 3 或 4)

这种正则化还有一个良好的性质,即使在学习率设置过高的时候,网络中也不会出现数值“爆炸”,这是因为它的参数更新始终是被限制着的。

Dropout
让神经元以超参数 p 的概率被激活或者被设置为0。
注意:predict 函数中不进行随机失活,但是对于两个隐层的输出都要乘以p,调整其数值范围。 因为在测试时所有的神经元都能看见它们的输入,因此我们想要神经元的输出与训练时的预期输出是一致的。