当前位置: 首页 > news >正文

Mixture-of-Experts with Expert Choice Routing:专家混合模型与专家选择路由

摘要

稀疏激活的专家混合模型(MoE)允许在保持每个token或每个样本计算量不变的情况下,大幅增加参数数量。然而,糟糕的专家路由策略可能导致某些专家未被充分训练,从而使得专家在特定任务上过度或不足专业化。先前的研究通过使用top-k函数为每个token分配固定数量的专家,无视不同token的重要性差异。为了解决这个问题,我们提出了一种异构专家混合模型,采用专家选择方法。我们并非让token选择top-k个专家,而是让专家选择top-k个token。结果是,每个token可以路由到不同数量的专家,并且每个专家可以有固定的桶大小。我们通过使用与Switch Transformer的top-1和GShard的top-2门控相同的计算资源,系统地研究了预训练加速效果,发现我们的方法使得训练收敛时间提高了2倍以上。在相同计算成本下,我们的方法在GLUE和SuperGLUE基准测试中精调了11个任务,表现更佳。对于较小的激活成本,我们的方法在11个任务中的7个任务上优于T5密集模型。

1 引言

扩大模型容量、数据集大小和训练时间已被证明能够大幅提升计算机视觉架构[4, 11, 13, 14]和神经语言模型[2, 20, 26, 27]的性能。最终模型的质量已被发现与数据量、模型大小和计算时间呈幂次关系[16, 20]。然而,随着我们对绿色AI[29]的关注加深,训练效率(即使用总计算量比现有最先进系

相关文章:

  • LeetCode 1365. 有多少小于当前数字的数字 java题解
  • @EnableAsync+@Async源码学习笔记之一
  • C语言格式化输入输出总结 (printf和scanf)
  • ubuntu18.04安装QT问题汇总
  • 【STM32单片机】#10 USART串口通信
  • Kubernetes 多主多从集群部署完整文档
  • 解码 Web Service:从技术原理到应用场景的深度剖析
  • (2)Vue事件绑定的使用
  • 测试第四课---------性能测试
  • JAVA IO、BIO、NIO、AIO及零拷贝
  • 数据从辅存调入主存,页表中一定存在
  • LinearLayout 线性布局
  • 6.7 ChatGPT自动生成定时任务脚本:Python与Cron双方案实战指南
  • dac直通线还是aoc直通线? sfp使用
  • Shell脚本-什么时候需要定义变量
  • 【2025】Datawhale AI春训营-蛋白质预测(AI+生命科学)-Task2笔记
  • 实战交易策略 篇十六:猎豹阿杜打板交易策略
  • PHP异常处理__Exception类
  • TV主板的拆解学习
  • 实战交易策略 篇十五:东莞小文超级短线交易策略
  • 石黑一雄《莫失莫忘》与“克隆人”:殖民地的记忆与行动
  • 湖北一季度GDP为13543.49亿元,同比增长6.3%
  • 广东将调查核算6宗非法开采稀土矿,公告比选技术服务供应商
  • 农文旅项目投资1700万后被告知是禁养区?南京浦口通报
  • 上海:去年民营经济贡献了3/4的新增就业,将助力民企国际化发展
  • 牛市早报|一季度GDP同比增长5.4%,李成钢任商务部国际贸易谈判代表