论文阅读:2024 ICML Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
https://www.doubao.com/chat/3506902534329346
https://arxiv.org/pdf/2404.10719
速览
这篇论文主要探讨了大语言模型对齐中两种主流方法——**DPO(直接偏好优化)和PPO(近端策略优化)**的优劣,并通过理论分析和实验对比得出了关键结论。以下是核心内容的通俗解读:
1. 背景:大语言模型的对齐问题
大语言模型(如ChatGPT)在实际应用中需要符合人类偏好,这一过程称为对齐(Alignment)。目前主流方法是RLHF(人类反馈强化学习),分为两类:
- 基于奖励模型的方法(如PPO):先训练一个奖励模型判断回答好坏,再用强化学习优化模型。
- 无奖励模型的方法(如DPO):直接通过偏好数据优化模型,避免显式训练奖励模型。
矛盾点:学术基准测试中DPO常表现更好,但工业界(如ChatGPT)却普遍使用PPO。为什么会这样?
2. 核心发现:DPO的局限性
(1)理论缺陷:DPO可能找到“歪解”
- DPO直接优化偏好数据,但可能生成偏离真实需求的回答。例如:
- 假设偏好数据只对比了回答A和B,DPO可能过度关注这两个选项,甚至生成未被训练过的、无意义的回答C(如表格1的例子)。
- 而PPO通过参考模型的KL散度正则化(类似“约束条件”),能限制模型生成离谱内容,更稳定。
(2)数据分布敏感:DPO易受“训练数据偏差”影响
- DPO的性能高度依赖训练数据的分布:
- 如果训练数据和模型生成的内容分布不一致(如基础模型用Alpaca训练,DPO用SafeRLHF数据微调),DPO的效果会大幅下降(安全率仅55.4%,表格2)。
- 即使通过迭代训练(DPO-Iter)缓解分布问题,其效果仍不如PPO,且在复杂任务(如代码生成)中表现极差。
3. PPO的优势:关键调参技巧让其更强大
论文发现PPO的性能被低估,通过优化以下细节可显著提升:
- 优势归一化(Advantage Normalization):稳定训练过程,避免奖励信号波动过大。
- 大批次训练(Large Batch Size):尤其在代码生成任务中,批次越大,性能提升越明显(如APPS数据集pass@5从18%提升至44.4%,表格3)。
- 参考模型指数移动平均(Ref. EMA):让参考模型逐步更新,避免过度约束新模型,提升灵活性。
实验结果:在对话、代码生成等多任务中,PPO全面超越DPO,尤其在**代码竞赛任务(CodeContest)**中,PPO模型(340亿参数)的正确率从基线的16.4%提升至22.4%,超过AlphaCode(410亿参数)。
4. 总结:为什么工业界更爱PPO?
- 稳定性与泛化性:PPO通过奖励模型和正则化,能更好应对复杂场景,避免生成“偏门”回答。
- 调参技巧的重要性:PPO的潜力需要正确调参(如大批次、归一化)才能释放,而DPO对数据分布和训练细节更敏感。
- 实际应用导向:在需要高可靠性的场景(如代码生成、安全对话),PPO的优势更明显。
一句话结论
DPO在简单场景或特定基准测试中可能表现不错,但PPO通过合理调参更稳定、更适应复杂任务,尤其在工业界实际应用中优势显著。