当前位置: 首页 > news >正文

MoE演变过程

MoE演变过程

  • 1 MoE
    • 1.1 BasicMoE
    • 1.2 SparseMoE
      • 1.3 Shared Expert SparseMoE

1 MoE

1.1 BasicMoE

用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。

1.2 SparseMoE

这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。

  1. 论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
  2. paper:https://arxiv.org/abs/2101.03961

在这里插入图片描述

SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和

1.3 Shared Expert SparseMoE

因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。

在这里插入图片描述

相关文章:

  • 设计模式13:职责链模式
  • 胶囊网络动态路由算法:突破CNN空间局限性的数学原理与工程实践
  • 力扣每日一题【算法学习day.127】
  • java如何连接数据库
  • 【设计模式精讲】六大设计原则 (SOLID)
  • 深度学习算法:从基础到实践
  • redis解决高并发看门狗策略
  • 【Pandas】pandas Series idxmin
  • 13-跳跃游戏 II
  • 【Linux】关于Docker的一系列问题。尤其是拉取东西时的网络问题,镜像源问题。
  • Linux:TCP和守护进程
  • 数据分析的AI+流程(个人经验)
  • 【C/C++】内存屏障概念、原理和用途
  • 以下是 HTML 与 HTML5 的核心区别及从基础到高级的总结:
  • 构建了一个 Linux 发行版,基于Debian和WattOS的
  • 关于Node.js前端面试的试题概念、工作原理及实际应用
  • 涌现之谜:神经网络中的意识幻象与信息熵变
  • 实例研究:设计一个文档编辑器(24)- 完
  • OpenGL ES - 数学基础
  • PLC通信交互系统技术分享
  • 第二部以“法典”命名的法律!生态环境法典编纂迈出“关键步”
  • VR数字沉浸体验又添新节目,泰坦尼克号驶进文旅元宇宙
  • 巴达玛·利斯瓦达恭当选世界羽联主席,张军任理事会理事
  • 广西给出最后期限:6月30日之前主动交代问题可从宽处理
  • 中国平安一季度净赚270亿降逾26%,营运利润增2.4%
  • 11-13世纪的地中海贸易