当前位置: 首页 > news >正文

Transformer中Post-Norm和Pre-Norm如何选择?

pre-norm:

x n + 1 = x n + f ( n o r m ( x n ) ) x_{n+1}=x_n+f(norm(x_n)) xn+1=xn+f(norm(xn))
其中第二项的方差由于有 norm 是不随层数变化的,于是 x 的方差会在主干上随层数积累。到了深层以后,单层对主干的影响可以视为小量,而不同层的 f 统计上是相似的,于是有

x n + 1 = x n + f ( n o r m ( x n ) ) = x n − 1 + f ( n o r m ( x n − 1 ) ) + f ( n o r m ( x n ) ) ≈ x n − 1 + 2 f ( n o r m ( x n − 1 ) ) 。 \begin{aligned} x_{n+1} &=x_{n}+f(norm(x_{n})) \\ &=x_{n-1}+f(norm(x_{n-1}))+f(norm(x_{n}))\\ &\approx x_{n-1} + 2f(norm(x_{n-1})) 。 \end{aligned} xn+1=xn+f(norm(xn))=xn1+f(norm(xn1))+f(norm(xn))xn1+2f(norm(xn1))
这样训练出来的深层 ResNet or Transformer,深层部分实际上更像扩展了模型宽度,所以相对好训练,但某种意义上并不是真正的 deep.

post-norm

x n + 1 = n o r m ( x n + f ( x n ) ) x_{n+1}=norm(x_n+f(x_n)) xn+1=norm(xn+f(xn))则保证了主干方差恒定,每层对 x 都可能有较大影响,代价则是模型结构中没有从头到尾的恒等路径,梯度难以控制。通常认为会更难收敛,但训练出来的效果更好。

deep-norm

x n + 1 = n o r m ( α x n + f ( x n ) ) ( α > 1 ) x_{n+1}=norm(αx_n+f(x_n))(α>1) xn+1=norm(αxn+f(xn))(α>1)通过控制参数起到了一个折中的效果

恒等路径(Identity Path)

指的是神经网络中从输入到输出的一条 “直接通路”,使得信息可以不经过任何非线性变换或复杂运算直接传递。这种路径的核心作用是保留原始输入的信息,并通过残差连接(Residual Connection)等机制帮助梯度更顺畅地反向传播,避免深层网络中的梯度消失问题。

恒等路径的本质与取舍

结构恒等路径完整性梯度传播难度训练收敛性特征表达能力
Post-Norm无(需归一化)高(依赖调参)较差较强(浅层更灵活)
Pre-Norm有(残差直连)低(梯度短路)较好较平滑(深层更稳定)
  • 恒等路径的核心价值:通过保留原始输入的直接传递通道,降低深层网络的优化难度,这是 Pre-Norm 成为主流的关键原因。
  • Post-Norm 的适用场景:若任务需要模型在浅层捕捉强非线性特征,且计算资源允许精细调参,可尝试 Post-Norm(如原始 Transformer 在机器翻译中的成功)。

选择

场景Pre-Norm(推荐)Post-Norm(谨慎使用)
模型深度深层(≥12 层)浅层(≤6 层)或实验性浅层结构
训练稳定性优先(尤其存在梯度问题时)需调参(如学习率、优化器等)
任务类型NLP 主流模型、深层 CV 模型(如 ViT)原始 Transformer 复现、小规模实验
优化难度低(适合新手或大规模训练)高(需丰富调参经验)

https://www.zhihu.com/question/519668254/answer/2371885202

相关文章:

  • 影像数据处理
  • P5670 秘籍-反复异或 Solution
  • 日语学习-日语知识点小记-构建基础-JLPT-N4阶段(8): - (1)复习一些语法(2)「~ています」
  • C++中函数的实现写在头文件内
  • 第 6 篇:衡量预测好坏 - 评估指标
  • 机器视觉lcd屏增光片贴合应用
  • unity基础自学2.3:移动和抓握物品
  • Qt项目——汽车仪表盘
  • Git SSH 密钥多个 Git 来源
  • 研究夜间灯光数据在估计出行需求方面的潜力
  • MySQL 按照日期统计记录数量
  • python 练习
  • 基于LoRA的Llama 2二次预训练实践:高效低成本的大模型领域适配
  • 使用c++调用deepseek的api(附带源码)
  • AI律师匹配AI分析法律需求意图并匹配律师
  • 为什么在TCP层(即传输层)没有解决半包、粘包的问题
  • 基于SpringBoot的在线抽奖系统测试用例报告
  • unity之协程
  • 算法学习(二)
  • 【Leetcode 每日一题】2145. 统计隐藏数组数目
  • 荣膺劳伦斯大奖实至名归,杜普兰蒂斯的传奇没有极限
  • 新质观察|解构低空经济产业集群发展战略
  • 首届中国—海湾阿拉伯国家合作委员会和平利用核技术论坛在成都召开
  • 分离19年后:陈杨梅首度露面,父亲亲手喂棉花糖给女儿吃
  • GDP增长6.0%,一季度浙江经济数据出炉
  • 人民日报:对科研不端行为加大惩处力度,让造假成本远高于收益