4/24杂想
1.BN
激活层前,加快模型训练时的收敛速度,避免梯度爆炸or梯度消失,起到一定的正则化作用,几乎代替了Dropout
批量标准化:标准化后数据服从均值为0,方差为1,之后yi = gamma*xi head+beta
每层的输入分布稳定
【基础算法】六问透彻理解BN(Batch Normalization) - 知乎
预防过拟合:
dropout【训练随机失活,推理不会】,BN,正则化【加在损失函数】
1.BN
激活层前,加快模型训练时的收敛速度,避免梯度爆炸or梯度消失,起到一定的正则化作用,几乎代替了Dropout
批量标准化:标准化后数据服从均值为0,方差为1,之后yi = gamma*xi head+beta
每层的输入分布稳定
【基础算法】六问透彻理解BN(Batch Normalization) - 知乎
预防过拟合:
dropout【训练随机失活,推理不会】,BN,正则化【加在损失函数】