当前位置：首页 > news >正文

大模型微调 - transformer架构

news 来源：原创 2025/4/26 4:59:35

什么是Transformer

Transformer 架构是由 Vaswani 等人在 2017 年提出的一种深度学习模型架构，首次发表于论文《Attention is All You Need》中

Transformer 的结构

在这里插入图片描述

Transformer = 编码器（Encoder） + 解码器（Decoder）

编码器（Encoder）：将输入序列编码成上下文相关的表示。
解码器（Decoder）：根据编码器输出和已有的目标序列预测下一个词。

标准的 Transformer 模型通常包含：

6 个编码器层（Encoder Layers）
6 个解码器层（Decoder Layers）

编码器结构（每层）

每个编码器层包含两个子层（Sublayers）：

多头自注意力机制（Multi-Head Self-Attention）
前馈全连接网络（Feed-Forward Neural Network）提供非线性能力

每个子层外面都有：

残差连接（Residual Connection），避免梯度消失
层归一化（Layer Normalization），保持每一层输入和输出的数值稳定、分布一致

解码器结构（每层）

每个解码器层包含三个子层：

Masked 多头自注意力机制
Encoder-Decoder 注意力机制
前馈神经网络
也有残差连接和层归一化。

全球碳化硅晶片市场深度解析：技术迭代、产业重构与未来赛道争夺战（2025-2031）

Linux部署ragflow,从安装docker开始~

斗鱼娱乐电玩平台源码搭建实录

课程9. 机器翻译，Seq2Seq与Attention

EasyRTC音视频实时通话嵌入式SDK，打造社交娱乐低延迟实时互动的新体验

嵌入式鸿蒙系统环境搭建与配置要求实现01

.NET中，const和readonly区别

鸿蒙NEXT开发剪贴板工具类（ArkTs）

Gradle安装与配置国内镜像源指南

【前缀和计算和+哈希表查找次数】Leetcode 560. 和为 K 的子数组

零基础教学：用GISBox将RVT转为3DTiles

日本企业突破机器人感知技术：人形机器人获嗅觉能力

那些年踩过的坑之Arrays.asList

7.Excel：单元格格式

Easysearch 基础运维扫盲指南：从 HTTP 到 HTTPS、认证与安全访问全解析

OpenCV 图形API（64）图像结构分析和形状描述符------在图像中查找轮廓函数findContours()

AI编程：[体验]从 0 到 1 开发一个项目的初体验

如何在IDEA中高效使用Test注解进行单元测试？

产品动态|千眼狼sCMOS科学相机捕获单分子荧光信号

前端面试（Vue React）内容目录与备考建议

新希望去年归母净利润4.74亿同比增逾九成，营收降27%

美联合健康集团高管枪杀案嫌疑人对谋杀指控不认罪

东北财大“一把手”调整：方红星任校党委书记，汪旭晖任校长

陕西全省公开征集涉企行政执法问题线索，切实减轻企业负担

著名茶叶专家谢丰镐逝世，享年95岁

我国民营经济首季运行向新向好，对国民经济发展形成有力支撑

什么是Transformer

Transformer 的结构

编码器结构（每层）

解码器结构（每层）

相关文章：