当前位置: 首页 > news >正文

大模型(LLMs)强化学习—— PPO

一、大语言模型RLHF中的PPO主要分哪些步骤?

二、举例描述一下 大语言模型的RLHF?

三、大语言模型RLHF 采样篇

  1. 什么是 PPO 中 采样过程?
  2. 介绍一下 PPO 中 采样策略?
  3. PPO 中 采样策略中,如何评估“收益”?

一、大语言模型RLHF中的PPO主要分哪些步骤?

大语言模型RLHF中的PPO 分为:

  1. 采样
  2. 反馈
  3. 学习

对应的实现逻辑如下:

二、举例描述一下 大语言模型的RLHF

大语言模型的RLHF,实际上是模型先试错再学习的过程。大语言模型的RLHF 好比是:老师与学生的角色

  1. 我们扮演着老师的角色,给出有趣的问题。模型则会像小学生一样,不断尝试给出答案。
  2. 模型会根据我们给出的问题,写出它觉得正确的答案,但是这些答案不一定是真的答案,需要我们结合正确答案进行打分。如果它表现得好,就会给予它高声赞扬;如果它表现不佳,我们则会给予它耐心的指导和反馈,帮助它不断改进,直到达到令人满意的水平。

三、大语言模型RLHF 采样篇

  1. 什么是 PPO 中 采样过程?
    PPO 中 采样过程:学生回答问题的过程,是模型根据提示(prompt)输出回答(response)的过程,或者说是模型自行生产训练数据的过程。
    eg:

  1. 介绍一下 PPO 中 采样策略?
    PPO 中 采样工作 通过一种策略(policy:policy由两个模型组成,一个叫做演员模型(Actor),另一个叫做评论家模型(Critic)。它们就像是学生大脑中的两种意识,一个负责决策,一个负责总结得失
    演员:我们想要训练出来的大模型。在用PPO训练它之前,它就是RLHF的第一步训练出来的SFT
    (Supervised Fine-Tuning)model。输入一段上下文,它将输出下一个token的概率分布。
    评论家:强化学习的辅助模型,输入一段上下文,它将输出下一个token的“收益”。
  2. PPO 中 采样策略中,如何评估收益

从下一个token开始,模型能够获得的总奖励(浮点数标量)。这里说的奖励包括Reward Model给出的奖励。

相关文章:

  • Android wifi开发调试总结
  • NIPS2021 | 视觉 Transformer 的有趣特性
  • 华纳云:centos如何实现JSP页面的动态加载
  • Oracle的PLSQL中动态执行函数
  • Ubuntu中C++项目安装二次规划库——qpOASES 库
  • 基于STM32、HAL库的DS2411R安全验证及加密芯片驱动程序设计
  • HarmonyOS NEXT 诗词元服务项目开发上架全流程实战(一、项目介绍及实现效果展示)
  • 蓝桥杯Python组高频考点与解题策略
  • Axios 传参与 Spring Boot 接收参数完全指南
  • Visual Studio 技能:调整软件界面布局
  • SoapUi测试1——REST(WebAPi、Json协议/HTTP、Post通讯方式)接口测试
  • C语言基础—(函数,指针与形参实参,字符串与指针,结构体)
  • 在另外一台可以科学下载的电脑用ollama下载模型后,怎么导入到另外一台服务器的ollama使用
  • (一)Linux的历史与环境搭建
  • 云原生--核心组件-容器篇-6-Docker核心之-镜像仓库(公共仓库,私有仓库,第三方仓库)
  • 香橙派打包qt文件报错“xcb 插件无法加载”与“QObject::moveToThread”线程错误的解决方案
  • 2.2.1goweb内置的 HTTP 处理程序
  • uniapp做app,使用v-for遍历渲染第二层的时候,打包到手机上渲染不出第二层的数据
  • 5G与边缘计算:协同发展,开启智慧世界新篇章
  • (云计算HCIP)HCIP全笔记(十三)本篇介绍虚拟化技术,内容包含:虚拟化资源、虚拟化过程、I/O虚拟化、虚拟化架构KVM和Xen介绍、主流虚拟化技术介绍
  • 第二艘国产大型邮轮实现坞内起浮,重点强化邮轮供应链本土化建设
  • 四川落马厅官周海琦受审,1000多人接受警示教育
  • 新任海南琼海市委副书记陈明已主持市政府党组全面工作
  • 葛兰西的三位一体:重提并复兴欧洲共产主义的平民圣人
  • 戴昕谈隐私、数据、声誉与法律现实主义
  • 四川:全省统一取消普通住宅和非普通住宅标准