MoE演变过程
MoE演变过程
- 1 MoE
- 1.1 BasicMoE
- 1.2 SparseMoE
- 1.3 Shared Expert SparseMoE
1 MoE
1.1 BasicMoE
用router给出各专家的权重,然后让输入过每一个专家,然后做加权求和。
1.2 SparseMoE
这个模型是由Switch Transformer论文中提出来的,其预训练速度是密集模型的7倍。
- 论文:Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- paper:https://arxiv.org/abs/2101.03961
SparseMoE选择topk个专家(没有激活全部专家,所以叫sparse),然后各专家的输出进行加权求和
1.3 Shared Expert SparseMoE
因为有些信息是通识的,所以建立Shared Expert共享专家,这些专家是每个token都要过的,然后其他专业领域的专家由router进行选择,然后再加权求和。