当前位置：首页 > news >正文

颠覆传统！LSTM+transformer上大分！参数直降45.5％，精度远超SOTA！

news 来源：原创 2025/4/28 18:12:55

航识无涯学术致力于成为您在人工智能领域的领航者，定期更新人工智能领域的重大新闻与最新动态，和您一起探索AI的无限可能。

2025深度学习发论文&模型涨点之——LSTM+transformer

近年来，序列建模领域见证了长短期记忆网络（LSTM）与Transformer架构的深度融合，这一交叉方向通过结合时序建模的归纳偏置与自注意力机制的全局依赖性，显著提升了在长序列任务中的性能边界。现有研究表明，LSTM的门控机制能有效缓解梯度消失问题，而Transformer的并行化注意力层则突破了传统循环神经网络的序列计算瓶颈。两者的混合架构（如LSTM-Transformer Hybrid）在时间序列预测、神经机器翻译及语音识别等任务中展现出超越单一模型的优势。

论文精我整理了一些时间序列可解释性【论文+代码】合集，需要的同学公人人人号【航识无涯学术】发123自取。

论文精选

论文1：

Sequencer: Deep LSTM for Image Classification

Sequencer：深度 LSTM 用于图像分类

方法

Sequencer 架构：提出了一种新型的深度学习架构，使用长短期记忆网络（LSTM）代替自注意力机制来建模图像中的长距离依赖关系。

BiLSTM2D 层：设计了二维版本的 LSTM 模块，将 LSTM 分解为垂直和水平两个方向，以增强性能。

Patch Embedding：将图像划分为非重叠的 patch，并将这些 patch 投影到特征图上。

全局平均池化和线性分类器：在模型的最后阶段，使用全局平均池化和线性分类器进行分类。

创新点

使用 LSTM 替代自注意力：与 Vision Transformer（ViT）相比，Sequencer 使用 LSTM 来建模长距离依赖关系，而不是自注意力机制。在 ImageNet-1K 数据集上，Sequencer2D-L 实现了 83.4% 的 top-1 准确率，仅使用 54M 参数，优于许多基于自注意力的模型。

二维 LSTM 设计：通过引入垂直和水平的 BiLSTM2D 层，Sequencer 能够更有效地处理二维空间信息，提升了模型的准确性和效率。

内存和计算效率：Sequencer 在高分辨率输入时表现出色，其内存使用和计算复杂度的增长速度远低于基于自注意力的模型。例如，在 896² 分辨率下，Sequencer2D-S 的内存使用量显著低于 DeiT-S，且吞吐量更高。

良好的分辨率适应性：Sequencer 在输入分辨率翻倍时仍能保持较高的准确率，这使得它在处理高分辨率图像时具有显著优势。

论文2：

SwinLSTM: Improving Spatiotemporal Prediction Accuracy using Swin Transformer and LSTM

SwinLSTM：使用 Swin Transformer 和 LSTM 提高时空预测精度

方法

SwinLSTM 模块：将 Swin Transformer 块与简化版 LSTM 结合，形成一种新的循环单元，用于提取时空表示。

时空预测网络：构建了一个以 SwinLSTM 为核心的预测网络，用于捕捉时空数据中的空间和时间依赖关系。

Patch Embedding 和 Patch Merging：将输入图像分割成 patch 序列，并通过 patch embedding 层将 patch 映射到特征空间，同时使用 patch merging 层进行下采样。

重建层：将提取的时空表示解码为预测的下一帧图像。

创新点

Swin Transformer 与 LSTM 的结合：通过将 Swin Transformer 的全局空间建模能力与 LSTM 的时间序列建模能力相结合，SwinLSTM 在多个时空预测任务上取得了显著的性能提升。例如，在 Moving MNIST 数据集上，SwinLSTM 的 MSE 降低到 17.7，SSIM 提升到 0.962，相比 ConvLSTM 的 MSE 103.3 和 SSIM 0.707 有巨大改进。

全局空间依赖性建模：SwinLSTM 能够有效捕捉全局空间依赖性，这对于提高时空预测的准确性至关重要。在 Human3.6m 和 KTH 数据集上，SwinLSTM 的 PSNR 分别提高了 4.49 dB 和 5.59 dB。

高效的时空表示提取：通过设计合理的网络结构，SwinLSTM 在保持高预测精度的同时，显著降低了计算复杂度和内存消耗。

广泛的适用性：SwinLSTM 在多个标准数据集上表现出色，包括 Moving MNIST、TaxiBJ、Human3.6m 和 KTH，证明了其在不同时空预测任务中的通用性和有效性。

论文3：

DepGraph: Towards Any Structural Pruning

DepGraph：实现任意结构剪枝

方法

Dependency Graph（DepGraph）：提出了一种通用且自动化的依赖图方法，用于显式建模神经网络层之间的依赖关系，并全面分组耦合参数以进行剪枝。

网络分解：将神经网络分解为更基本的组件，包括参数化层（如卷积）和非参数化操作（如残差连接），以便更细粒度地建模依赖关系。

依赖建模：通过分析层之间的连接和共享剪枝方案，确定层之间的依赖关系，包括层间依赖和层内依赖。

组级剪枝：利用简单的范数基准则，结合依赖图的分组信息，实现组级剪枝，以提高剪枝后的模型性能。

创新点

通用的依赖图方法：DepGraph 是一种通用的依赖图方法，能够自动处理任意网络架构的结构剪枝，包括 CNNs、RNNs、GNNs 和 Transformers。例如，在 ResNet-56 上，使用 DepGraph 剪枝后的模型在 CIFAR-10 上达到了 93.64% 的准确率，甚至超过了未剪枝模型的 93.53%。

自动分组和剪枝：通过依赖图自动分组耦合参数，避免了手动设计分组方案的复杂性和局限性。在 ImageNet 上，DepGraph 在 ResNet-50 上实现了超过 2 倍的加速，仅损失了 0.32% 的性能。

组级剪枝策略：通过引入组级剪枝策略，确保所有耦合参数在剪枝时具有一致的重要性，从而避免了性能的显著下降。在 CIFAR-100 上，使用全组剪枝策略的 VGG-19 模型在 8.92 倍加速下仅损失了 3.11% 的准确率。

广泛的适用性：DepGraph 不仅适用于图像分类任务，还成功应用于文本分类（LSTM）、3D 点云分类（DGCNN）和图数据分类（GAT），在这些任务上均实现了显著的加速和较小的性能损失。