当前位置: 首页 > news >正文

论文阅读:2024 ICML Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

https://www.doubao.com/chat/3506902534329346

https://arxiv.org/pdf/2404.10719

速览

这篇论文主要探讨了大语言模型对齐中两种主流方法——**DPO(直接偏好优化)PPO(近端策略优化)**的优劣,并通过理论分析和实验对比得出了关键结论。以下是核心内容的通俗解读:

1. 背景:大语言模型的对齐问题
大语言模型(如ChatGPT)在实际应用中需要符合人类偏好,这一过程称为对齐(Alignment)。目前主流方法是RLHF(人类反馈强化学习),分为两类:

  • 基于奖励模型的方法(如PPO):先训练一个奖励模型判断回答好坏,再用强化学习优化模型。
  • 无奖励模型的方法(如DPO):直接通过偏好数据优化模型,避免显式训练奖励模型。

矛盾点:学术基准测试中DPO常表现更好,但工业界(如ChatGPT)却普遍使用PPO。为什么会这样?

2. 核心发现:DPO的局限性

(1)理论缺陷:DPO可能找到“歪解”
  • DPO直接优化偏好数据,但可能生成偏离真实需求的回答。例如:
    • 假设偏好数据只对比了回答A和B,DPO可能过度关注这两个选项,甚至生成未被训练过的、无意义的回答C(如表格1的例子)。
    • 而PPO通过参考模型的KL散度正则化(类似“约束条件”),能限制模型生成离谱内容,更稳定。

(2)数据分布敏感:DPO易受“训练数据偏差”影响

  • DPO的性能高度依赖训练数据的分布:
    • 如果训练数据和模型生成的内容分布不一致(如基础模型用Alpaca训练,DPO用SafeRLHF数据微调),DPO的效果会大幅下降(安全率仅55.4%,表格2)。
    • 即使通过迭代训练(DPO-Iter)缓解分布问题,其效果仍不如PPO,且在复杂任务(如代码生成)中表现极差。

3. PPO的优势:关键调参技巧让其更强大
论文发现PPO的性能被低估,通过优化以下细节可显著提升:

  • 优势归一化(Advantage Normalization):稳定训练过程,避免奖励信号波动过大。
  • 大批次训练(Large Batch Size):尤其在代码生成任务中,批次越大,性能提升越明显(如APPS数据集pass@5从18%提升至44.4%,表格3)。
  • 参考模型指数移动平均(Ref. EMA):让参考模型逐步更新,避免过度约束新模型,提升灵活性。

实验结果:在对话、代码生成等多任务中,PPO全面超越DPO,尤其在**代码竞赛任务(CodeContest)**中,PPO模型(340亿参数)的正确率从基线的16.4%提升至22.4%,超过AlphaCode(410亿参数)。

4. 总结:为什么工业界更爱PPO?

  • 稳定性与泛化性:PPO通过奖励模型和正则化,能更好应对复杂场景,避免生成“偏门”回答。
  • 调参技巧的重要性:PPO的潜力需要正确调参(如大批次、归一化)才能释放,而DPO对数据分布和训练细节更敏感。
  • 实际应用导向:在需要高可靠性的场景(如代码生成、安全对话),PPO的优势更明显。

一句话结论
DPO在简单场景或特定基准测试中可能表现不错,但PPO通过合理调参更稳定、更适应复杂任务,尤其在工业界实际应用中优势显著。

相关文章:

  • Java 线程池
  • Redis日常学习(一)
  • 存储/服务器内存的基本概念简介
  • 系统思考与理性决策
  • 基于FPGA的四层电梯设计系统设计和实现
  • leetcode205.同构字符串
  • 【读书笔记·VLSI电路设计方法解密】问题63:为什么可测试性设计对产品的财务成功至关重要
  • 个人所得税
  • 缓存 --- Redis性能瓶颈和大Key问题
  • Python内存管理之隔代回收机制详解
  • windows docker desktop 无法访问容器端口映射
  • 线程安全总结
  • 关于编译树莓派内核系统的总结
  • 【MySQL】MySQL的基础语法及其语句的介绍
  • 【微知】服务器如何获取服务器的SN序列号信息?(dmidecode -t 1)
  • 游戏引擎学习第237天:使用 OpenGL 显示图像
  • IP数据报
  • GA 。。。
  • 在统信UOS上修改sudo权限以免输入密码
  • 【数据结构 · 初阶】- 带环链表
  • “雷公”起诉人贩子王浩文案将开庭:索赔6元,“讨个公道”
  • 9厘米,25克!最小最轻的无线陆空两栖机器人来了
  • 中国房地产报:以改促治实现楼市多难并解
  • 从高铁到住房:“富足议程”能否拯救美国的进步主义?
  • 大运河博物馆展出江苏国画院精品:傅抱石与八大郑板桥们
  • 场外口水淹没比赛,津门虎全华班大败引发巨大争议