论文阅读:2025 arxiv Aligning to What? Limits to RLHF Based Alignment
Aligning to What? Limits to RLHF Based Alignment
https://arxiv.org/pdf/2503.09025
https://www.doubao.com/chat/3871529075012866
速览
这篇论文主要探讨了强化学习从人类反馈(RLHF)在对齐大型语言模型(LLMs)时的局限性,尤其是在处理隐性和显性偏见方面。以下是核心内容的通俗解读:
1. 研究背景:RLHF真的能让模型“三观正”吗?
- RLHF的作用:现在训练大语言模型(如GPT、Llama)时,常通过RLHF让模型符合人类偏好,比如更无害、更有帮助。但问题在于,人类反馈可能有偏差,而且RLHF是否能有效减少模型的隐性偏见(比如对非裔美国人的刻板印象)并不清楚。
- 隐性偏见 vs 显性偏见:
- 显性偏见:模型明确提到种族时表现出的偏见(如直接说“黑人=懒惰”)。
- 隐性偏见:模型通过语言风格(如非裔美式英语AAE vs 标准美式英语SAE)间接表现的偏见(如将AAE与负面特质关联)。
2. 实验设计:用不同方法测试RLHF的效果
-
模型与数据:
- 用Llama 3 8B和Mistral等模型,通过RLHF方法(DPO、ORPO、RLOO)训练,测试其对AAE和SAE的偏见。
- 设计了匹配伪装探测(matched-guise probing):给模型不同方言的句子,看它是否将特定特质(如“聪明”“粗鲁”)与某一方言关联。
- 还扩展到多模态模型(如Llama 3.2 Vision):用图像中的种族信息测试显性偏见。
-
关键操作:
- 对比“有监督微调(SFT)后再RLHF”和“直接RLHF”的效果。
- 用仅含AAE的数据集训练,看是否能减少偏见。
3. 核心发现:RLHF对隐性偏见效果有限
-
发现1:RLHF难改隐性偏见
- 无论用哪种RLHF方法(DPO、ORPO等),模型对AAE/SAE的隐性偏见(如将AAE与极端正负特质关联)几乎没有显著变化。
- 例如,Llama 3在RLHF后,仍倾向于将AAE与“热情”“冲动”等极端特质关联,而SAE与中性特质关联。
-
发现2:有监督微调(SFT)可能固化偏见
- 在RLHF前先进行SFT(用常规数据训练),会让模型的偏见更“顽固”,更难通过RLHF改变。
-
发现3:显性偏见可改,但可能引入新问题
- RLHF能调整显性偏见(如直接提到种族时的评价),但可能产生权衡:减少一种偏见的同时,可能引入另一种。
- 例如,Llama 3-Instruct模型的显性偏见减少,但隐性偏见依然存在,甚至可能将更多特质与SAE关联(从“偏见A”变成“偏见B”)。
-
发现4:多模态模型的偏见可能矛盾
- 在Llama 3.2 Vision中,仅用文本时模型对AAE有隐性偏见,但用图像(黑人/白人面孔)时,显性偏见却相反(将负面特质与白人关联)。这表明外显和内隐偏见可能割裂。
4. 为什么RLHF不管用?
-
数据问题:
- 人类反馈数据可能缺乏针对隐性偏见的明确标注,导致RLHF无法有效优化。
- 预训练数据中SAE占比远高于AAE,模型可能“默认”SAE更“正常”,RLHF难以逆转这种深层关联。
-
方法局限:
- RLHF依赖明确的奖励信号(如“用户更喜欢这个回答”),但隐性偏见是模糊的、间接的,难以通过简单的“偏好打分”捕捉和纠正。
- 奖励模型本身可能有偏差,导致RLHF优化方向出错。
5. 启示与未来方向
- 当前RLHF的不足:对复杂、隐性的社会偏见(如方言歧视)效果有限,需改进数据收集和对齐方法。
- 改进方向:
- 设计更敏感的偏见检测工具(如多模态结合)。
- 构建更均衡的训练数据,增加少数群体语言的代表性。
- 探索不依赖人类直接反馈的对齐方法,或结合心理学理论(如隐性联想测试)优化模型。
总结
这篇论文泼了盆冷水:RLHF虽然能让模型在表面上更“合规”,但对深层的隐性偏见效果微弱,甚至可能因数据和方法限制导致新问题。要让AI真正“公平”,可能需要从数据源头、训练方法到评估体系的全面革新。