当前位置: 首页 > news >正文

大模型微调 - transformer架构

什么是Transformer

Transformer 架构是由 Vaswani 等人在 2017 年提出的一种深度学习模型架构,首次发表于论文《Attention is All You Need》中

Transformer 的结构

在这里插入图片描述

Transformer = 编码器(Encoder) + 解码器(Decoder)

  • 编码器(Encoder):将输入序列编码成上下文相关的表示。

  • 解码器(Decoder):根据编码器输出和已有的目标序列预测下一个词。

标准的 Transformer 模型通常包含:

  • 6 个编码器层(Encoder Layers)

  • 6 个解码器层(Decoder Layers)

编码器结构(每层)

每个编码器层包含两个子层(Sublayers):

  • 多头自注意力机制(Multi-Head Self-Attention)
  • 前馈全连接网络(Feed-Forward Neural Network)提供非线性能力

每个子层外面都有:

  • 残差连接(Residual Connection),避免梯度消失
  • 层归一化(Layer Normalization),保持每一层输入和输出的数值稳定、分布一致

解码器结构(每层)

每个解码器层包含三个子层:

  • Masked 多头自注意力机制
  • Encoder-Decoder 注意力机制
  • 前馈神经网络
    也有残差连接和层归一化。

相关文章:

  • 全球碳化硅晶片市场深度解析:技术迭代、产业重构与未来赛道争夺战(2025-2031)
  • Linux部署ragflow,从安装docker开始~
  • 斗鱼娱乐电玩平台源码搭建实录
  • 课程9. 机器翻译,Seq2Seq与Attention
  • EasyRTC音视频实时通话嵌入式SDK,打造社交娱乐低延迟实时互动的新体验
  • 嵌入式鸿蒙系统环境搭建与配置要求实现01
  • .NET中,const和readonly区别
  • 鸿蒙NEXT开发剪贴板工具类(ArkTs)
  • Gradle安装与配置国内镜像源指南
  • 【前缀和计算和+哈希表查找次数】Leetcode 560. 和为 K 的子数组
  • 零基础教学:用GISBox将RVT转为3DTiles
  • 日本企业突破机器人感知技术:人形机器人获嗅觉能力
  • 那些年踩过的坑之Arrays.asList
  • 7.Excel:单元格格式
  • Easysearch 基础运维扫盲指南:从 HTTP 到 HTTPS、认证与安全访问全解析
  • OpenCV 图形API(64)图像结构分析和形状描述符------在图像中查找轮廓函数findContours()
  • AI编程:[体验]从 0 到 1 开发一个项目的初体验
  • 如何在IDEA中高效使用Test注解进行单元测试?
  • 产品动态|千眼狼sCMOS科学相机捕获单分子荧光信号
  • 前端面试(Vue React)内容目录与备考建议
  • 新希望去年归母净利润4.74亿同比增逾九成,营收降27%
  • 美联合健康集团高管枪杀案嫌疑人对谋杀指控不认罪
  • 东北财大“一把手”调整:方红星任校党委书记,汪旭晖任校长
  • 陕西全省公开征集涉企行政执法问题线索,切实减轻企业负担
  • 著名茶叶专家谢丰镐逝世,享年95岁
  • 我国民营经济首季运行向新向好,对国民经济发展形成有力支撑