当前位置: 首页 > news >正文

从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

https://mp.weixin.qq.com/s/IKzCkR7hzfctcK0c0DbBCA

TinyZero是首个DeepSeek R1-Zero的干净、简洁、易于获取的全开源复现,目前已11.6k Star。同时,它只需 30 美元就能模拟花费600万美元的DeepSeek R1-Zero 的推理。

在这里插入图片描述

TinyZero 以字节的RLHF训练框架veRL为基础进行构建,采用 DeepSeek R1-Zero 算法,通过强化学习在没有监督微调的情况下实现了 3B 参数的大语言模型的自我思维验证和搜索能力。

https://github.com/Jiayi-Pan/TinyZero

4月22日上午9点,青稞Talk 第46期,UC Berkeley 博士生、TinyZero项目作者潘家怡和APR合作者李岫宇,将直播分享《从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化》。

APR(Adaptive Parallel Reasoning)是潘家怡博士和李岫宇博士,在Long CoT模型并行化加速方面提出自适应并行推理框架。

APR 通过多线程控制原语(spawn() 和 join())动态协调串行与并行推理流程,并基于端到端强化学习联合优化主从线程推理路径,实现无预设结构的计算资源自主调度。

在 Countdown 推理任务中,APR 展现出显著优势:4k 上下文窗口内成功率提升 23.4%(83.4% vs. 60.0%),20k 总 token 计算量时成功率提高 13.5%(80.1% vs. 66.6%),5 秒延迟条件下准确率提升 17.9%。

该框架为语言模型通过自适应分配并行计算资源优化推理效能提供了系统性解决方案。

分享嘉宾

李岫宇,UC Berkeley 博士生,导师为 Kurt Keutzer 教授,此前本科毕业于康奈尔大学。现主要研究方向为大语言模型 reasoning,后训练和高效推理。个人主页:xiuyuli.com

潘家怡,UC Berkeley 博士生,导师为 Alane Suhr教授,此前本科毕业于上海交通大学和密西根大学。现主要研究方向为大语言模型后训练方向,通过强化学习等方式提高模型在Agent和Reasoning上的能力。个人主页:jiayipan.com

主题提纲

从 TinyZero 到 APR:语言模型推理能力的探索与自适应并行化

1、TinyZero: 低成本复现 DeepSeek R1 Zero Aha moment
2、大语言模型传统 CoT 推理中的挑战
3、APR: 自适应并行推理框架介绍
4、端到端强化学习驱动优化

直播时间

4月22日上午9:00 - 10:00

相关文章:

  • Linux——入门常用基础指令
  • 基于unsloth微调一个越狱大模型
  • Linux——信号(2)信号保存与捕捉
  • CompletableFuture并行处理任务
  • 《MySQL:MySQL表的基本查询操作CRUD》
  • ros2 humble moveit调试笔记
  • docker基本命令1
  • Day-1 漏洞攻击实战
  • QT:Qt5 串口模块 (QSerialPort) 在 VS2015 中正确关闭串口避免被占用
  • 推荐系统/业务,相关知识/概念1
  • Sentinel源码—7.参数限流和注解的实现一
  • 如何在白平衡标定种构建不同类型的白平衡色温坐标系
  • 基于语义网络表示的不确定性推理
  • 从 0 到 1 转型 AI:突破技术壁垒的 5 大核心策略与实战路径
  • RK3588上编译opencv 及基于c++实现图像的读入
  • Java写数据结构:栈
  • Nebula图数据库
  • 富诺健康旗下运动营养品牌力爆(LIPOW):以冠军精神定义运动营养新时代
  • 论文分享:【2024 CVPR】Vision-and-Language Navigation via Causal Learning
  • NLTK 基础入门:用 Python 解锁自然语言处理
  • 工人日报评一些旅行社不收记者律师:“拒客黑名单”暴露心虚病
  • 中国旅游日主题月期间,东航将准备超51.9万套特惠机票
  • 南京信息工程大学商学院讲师李玮玮逝世,终年45岁
  • 专访|松重丰:“美食家”不孤独,他在自由地吃饭
  • 数智时代出版专业技能人才培养研讨会在沪举行
  • 加快从数量增长向品质跃升转变,促进生态空间与城市功能有机共生!龚正调研公园城市建设工作