批量级负载均衡(Batch-Wise Load Balance)和顺序级负载均衡(Sequence-Wise Load Balance)
本文主要比较了批量级负载均衡(Batch-Wise Load Balance)和顺序级负载均衡(Sequence-Wise Load Balance)在 Mixture-of-Experts(MoE)模型训练中的核心区别 。批量级负载均衡通过对整个训练批次的专家负载进行平衡约束,实现了更灵活的均衡策略,有助于专家在不同领域的专精,而不会被序列内的均衡约束束缚。顺序级负载均衡则在每个序列内部强制均衡,使得每个序列中的令牌(token)或子任务都能均匀分布到所有专家,但较为严格的约束会抑制模型对特定领域的深度学习能力。多项实验表明,当在大规模 MoE 模型训练中使用批量级策略时,整体性能和专家专精度均优于纯粹的序列级策略,且可通过在训练后期增加序列级辅助损失的方式兼顾两者优势。
什么是批量级负载均衡
批量级负载均衡是一种在整个训练批次(batch)范围内计算或施加负载均衡损失或策略的方法,它关注的是整个批次中各专家的总体负载分布,而非单个序列内部的平衡。与严格的序列级平衡不同,批量级方法允许模型根据整个批次内的令牌分布动态调整路由,从而为专家提供更大的专精空间和灵活性。
什么是顺序级负载均衡
顺序级负载均衡则在单个序列(sequence)或微批次(micro-batch)内部计算负载平