当前位置：首页 > news >正文

论文阅读笔记——Generating Long Sequences with Sparse Transformers

news 来源：原创 2025/4/20 21:53:22

Sparse Transformer 论文
解决了 Transformer 在长序列建模时的计算开销和内存过大的问题。
可视化了一个 128 层自注意力在 CIFAR-10 的数据集上学习到的注意力模式，发现：1）稀疏性普遍存在：大多数层在多数数据点上表现出稀疏注意力；2）例外：部分层想要捕捉全局依赖关系。Transformer 的注意力机制呈现了和卷积模型类似的归纳偏置，即浅层的网络倾向于提取纹理信息，深层的网络倾向于提取语义信息。

分解自注意力(Factorized self-attention)

Local 自注意力只关注自身相邻的，其余设为 0，类似于卷积；Atrous 自注意力是跳着计算，类似膨胀卷积；一种简单思路是交替使用 Local 自注意力和 Atrous 自注意力。但 OpenAI 并没有这么做，而是将二者合为一。

在这里插入图片描述
由于 Transformer 的最复杂的计算是 $QK^T$ ，稀疏注意力是让设置好的像素点参与注意力的计算。由此，引入了连接模式的变量 $S=\{S_1,……,S_n\}$ 。其中 $S_i$ 是在预测第 i 个时间片的索引，是一个由 0 和 1 组成的二维矩阵。
$\begin{aligned} \operatorname{Attend}(X, S) = \left(a(\mathbf{x}_i, S_i)\right)_{i \in \{1, \ldots, n\}} \quad (2) \\a(\mathbf{x}_i, S_i) = \operatorname{softmax}\left(\frac{(W_q \mathbf{x}_i) K_{S_i}^T}{\sqrt{d}}\right) V_{S_i} \quad (3) \\K_{S_i} = \left(W_k \mathbf{x}_j\right)_{j \in S_i} \quad V_{S_i} = \left(W_v \mathbf{x}_j\right)_{j \in S_i} \quad (4) \end{aligned}$
其中 $W_q,W_k,W_v$ 是计算 Query，Key，Value 三个向量的权值矩阵。稀疏 Transformer 通过让链接模式作用到 $K^T$ 上，从而降低 $QK^T$ 的复杂度

跨步注意力（Stride Attention） 由两种形式的连接模式组成。假设步长 $l$ ，行注意力是当前时间片的前 $l$ 个时间片的值为 1，其余为 0；列注意力是每隔 $l$ 个时间片段值为 1，其余为 0。行注意力和列注意力的表达式如下，复杂度均为 $O(\sqrt{n})$ ：
$\begin{aligned} A_i^{(1)}=\{t,t+1,t+2,……,i\},where\quad t = max(0,i-l) \\A_i^{(2)}=\{j:(i-j)\mod l =0\} \end{aligned}$
固定注意力（Fixed Attention） 也有行注意力和列注意力组成：
$\begin{aligned} A_i^{(1)}=\{j:([j/l]=[i/l])\} \\A_i^{(2)}=\{j:j\mod l \in\{t,t+1,……,l\}\} \end{aligned}$
将以上注意力核融入网络中：

每个残差块使用不同的注意力类型： $attention(X)=W_p·attend(X,A^{(r \mod p)})$ 其中 r 是当前残差块的缩影，p 是注意力核的类别数；
每个注意力头计算所有类型注意力核，合并他们的结果： $attention(X)=W_p·attend(X,\cup_{m=1}^p A^{(m)}$
对于多头注意力，每个头选择一个注意力核，合并结果： $attention(X)=W_p(attend(X,A)^{(i)})_{i\in\{1,……,n_h\}}$ 其中 $n_h$ 组不同注意力核并行计算，然后在特征维度拼接。

多层 Transformer 训练

在这里插入图片描述

作者使用了在 ResNet v2 中提出的激活前置的残差模块，一个 $N$ 层的网络可以表示为：
$\begin{aligned} H_0=embed(X,W_e) \\H_k=H_{k-1}+resblock(H_{k-1}) \\y=softmax(norm(H_N)W_{out}) \end{aligned}$
其中 embed 是可学习的嵌入层： $embed(X,W_e)=\left(\boldsymbol{x}_iW_e+\sum_{j=1}^{n_{emb}}\boldsymbol{o}_i^{(j)}W_j\right)$ 其中 $n_{emb}$ 的值为 $d_{data}$ 或 $d_{attn}$ ， $\boldsymbol{x}_i$ 是序列中第 i 个元素的 one-hot 编码， $\boldsymbol{o}_i^{(j)}$ 是 $\boldsymbol{x}_i$ 在第 $j$ 维特征上的 one-hot 编码。
resblock(h) 由一个注意力模块和一个前馈神经网络组成：
$\begin{gathered} a(H)=\text{dropout( attention }(\mathrm{norm}(H))) \\ b(H)=\mathrm{dropout}(\mathrm{ff}(\mathrm{norm}(H+a(H)))) \\ \operatorname{resblock}(H)=a(H)+b(H) \end{gathered}$