Transformer 架构 - 解码器 (Transformer Architecture - Decoder)
一、解码器整体结构:多层堆叠设计
Transformer解码器由N个相同结构的解码器层堆叠而成(通常N=6),每层包含三个核心子模块(图1)
1
5
12
:
- 带掩码的多头自注意力层(Masked Multi-Head Self-Attention)
- 编码器-解码器注意力层(Encoder-Decoder Attention / Cross-Attention)
- 前馈神经网络层(Feed-Forward Network)
通过多层堆叠,模型能够逐级抽象特征:
- 浅层:捕捉局部语法和词序关系(如动词与宾语的搭配)
- 深层:建模全局语义和复杂依赖(如篇章级指代消解)
5
12
二、解码器层内部组件详解
1. 带掩码的多头自注意力层
为什么需要掩码?