当前位置：首页 > news >正文

MoE演变过程

news 来源：原创 2025/4/27 22:55:13

1 MoE

用router给出各专家的权重，然后让输入过每一个专家，然后做加权求和。

这个模型是由Switch Transformer论文中提出来的，其预训练速度是密集模型的7倍。

论文：Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
paper：https://arxiv.org/abs/2101.03961

在这里插入图片描述

SparseMoE选择topk个专家（没有激活全部专家，所以叫sparse），然后各专家的输出进行加权求和

因为有些信息是通识的，所以建立Shared Expert共享专家，这些专家是每个token都要过的，然后其他专业领域的专家由router进行选择，然后再加权求和。

在这里插入图片描述

设计模式13：职责链模式

力扣每日一题【算法学习day.127】

java如何连接数据库

深度学习算法：从基础到实践

redis解决高并发看门狗策略

【Pandas】pandas Series idxmin

13-跳跃游戏 II

Linux：TCP和守护进程

数据分析的AI+流程（个人经验）

【C/C++】内存屏障概念、原理和用途

OpenGL ES - 数学基础

PLC通信交互系统技术分享