一、动因篇
为什么要正则化?
深度神经网络通常包含数以万计甚至数以亿计的参数,模型容量极大,极易在有限的训练数据上“记住”噪声与异常样本,从而出现过拟合(overfitting)现象。过拟合导致模型在训练集上表现优异,但在测试集或真实场景中泛化能力大幅下降。正则化(regularization)就是在损失函数中加入约束项,限制模型参数的自由度,使模型在拟合训练数据的同时保留一定的平滑性与鲁棒性,从而提升在未见数据上的表现。
权重衰减的目的?
权重衰减(Weight Decay)实质上是对权重参数施加 L2 惩罚,将损失函数由原来的
L 0 ( w )