当前位置：首页 > news >正文

论文阅读：2024 ICML Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

news 来源：原创 2025/4/21 6:48:01

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

https://www.doubao.com/chat/3506902534329346

https://arxiv.org/pdf/2404.10719

速览

这篇论文主要探讨了大语言模型对齐中两种主流方法——**DPO（直接偏好优化）和PPO（近端策略优化）**的优劣，并通过理论分析和实验对比得出了关键结论。以下是核心内容的通俗解读：

1. 背景：大语言模型的对齐问题
大语言模型（如ChatGPT）在实际应用中需要符合人类偏好，这一过程称为对齐（Alignment）。目前主流方法是RLHF（人类反馈强化学习），分为两类：

矛盾点：学术基准测试中DPO常表现更好，但工业界（如ChatGPT）却普遍使用PPO。为什么会这样？

2. 核心发现：DPO的局限性

DPO直接优化偏好数据，但可能生成偏离真实需求的回答。例如：
- 假设偏好数据只对比了回答A和B，DPO可能过度关注这两个选项，甚至生成未被训练过的、无意义的回答C（如表格1的例子）。
- 而PPO通过参考模型的KL散度正则化（类似“约束条件”），能限制模型生成离谱内容，更稳定。

（2）数据分布敏感：DPO易受“训练数据偏差”影响

DPO的性能高度依赖训练数据的分布：
- 如果训练数据和模型生成的内容分布不一致（如基础模型用Alpaca训练，DPO用SafeRLHF数据微调），DPO的效果会大幅下降（安全率仅55.4%，表格2）。
- 即使通过迭代训练（DPO-Iter）缓解分布问题，其效果仍不如PPO，且在复杂任务（如代码生成）中表现极差。

3. PPO的优势：关键调参技巧让其更强大
论文发现PPO的性能被低估，通过优化以下细节可显著提升：

优势归一化（Advantage Normalization）：稳定训练过程，避免奖励信号波动过大。
大批次训练（Large Batch Size）：尤其在代码生成任务中，批次越大，性能提升越明显（如APPS数据集pass@5从18%提升至44.4%，表格3）。
参考模型指数移动平均（Ref. EMA）：让参考模型逐步更新，避免过度约束新模型，提升灵活性。

实验结果：在对话、代码生成等多任务中，PPO全面超越DPO，尤其在**代码竞赛任务（CodeContest）**中，PPO模型（340亿参数）的正确率从基线的16.4%提升至22.4%，超过AlphaCode（410亿参数）。

4. 总结：为什么工业界更爱PPO？