当前位置: 首页 > news >正文

论文阅读:2025 arxiv Aligning to What? Limits to RLHF Based Alignment

Aligning to What? Limits to RLHF Based Alignment

https://arxiv.org/pdf/2503.09025

https://www.doubao.com/chat/3871529075012866

速览

这篇论文主要探讨了强化学习从人类反馈(RLHF)在对齐大型语言模型(LLMs)时的局限性,尤其是在处理隐性和显性偏见方面。以下是核心内容的通俗解读:

1. 研究背景:RLHF真的能让模型“三观正”吗?

  • RLHF的作用:现在训练大语言模型(如GPT、Llama)时,常通过RLHF让模型符合人类偏好,比如更无害、更有帮助。但问题在于,人类反馈可能有偏差,而且RLHF是否能有效减少模型的隐性偏见(比如对非裔美国人的刻板印象)并不清楚。
  • 隐性偏见 vs 显性偏见
    • 显性偏见:模型明确提到种族时表现出的偏见(如直接说“黑人=懒惰”)。
    • 隐性偏见:模型通过语言风格(如非裔美式英语AAE vs 标准美式英语SAE)间接表现的偏见(如将AAE与负面特质关联)。

2. 实验设计:用不同方法测试RLHF的效果

  • 模型与数据

    • 用Llama 3 8B和Mistral等模型,通过RLHF方法(DPO、ORPO、RLOO)训练,测试其对AAE和SAE的偏见。
    • 设计了匹配伪装探测(matched-guise probing):给模型不同方言的句子,看它是否将特定特质(如“聪明”“粗鲁”)与某一方言关联。
    • 还扩展到多模态模型(如Llama 3.2 Vision):用图像中的种族信息测试显性偏见。
  • 关键操作

    • 对比“有监督微调(SFT)后再RLHF”和“直接RLHF”的效果。
    • 用仅含AAE的数据集训练,看是否能减少偏见。

3. 核心发现:RLHF对隐性偏见效果有限

  • 发现1:RLHF难改隐性偏见

    • 无论用哪种RLHF方法(DPO、ORPO等),模型对AAE/SAE的隐性偏见(如将AAE与极端正负特质关联)几乎没有显著变化
    • 例如,Llama 3在RLHF后,仍倾向于将AAE与“热情”“冲动”等极端特质关联,而SAE与中性特质关联。
  • 发现2:有监督微调(SFT)可能固化偏见

    • 在RLHF前先进行SFT(用常规数据训练),会让模型的偏见更“顽固”,更难通过RLHF改变。
  • 发现3:显性偏见可改,但可能引入新问题

    • RLHF能调整显性偏见(如直接提到种族时的评价),但可能产生权衡:减少一种偏见的同时,可能引入另一种。
    • 例如,Llama 3-Instruct模型的显性偏见减少,但隐性偏见依然存在,甚至可能将更多特质与SAE关联(从“偏见A”变成“偏见B”)。
  • 发现4:多模态模型的偏见可能矛盾

    • 在Llama 3.2 Vision中,仅用文本时模型对AAE有隐性偏见,但用图像(黑人/白人面孔)时,显性偏见却相反(将负面特质与白人关联)。这表明外显和内隐偏见可能割裂

4. 为什么RLHF不管用?

  • 数据问题

    • 人类反馈数据可能缺乏针对隐性偏见的明确标注,导致RLHF无法有效优化。
    • 预训练数据中SAE占比远高于AAE,模型可能“默认”SAE更“正常”,RLHF难以逆转这种深层关联。
  • 方法局限

    • RLHF依赖明确的奖励信号(如“用户更喜欢这个回答”),但隐性偏见是模糊的、间接的,难以通过简单的“偏好打分”捕捉和纠正。
    • 奖励模型本身可能有偏差,导致RLHF优化方向出错。

5. 启示与未来方向

  • 当前RLHF的不足:对复杂、隐性的社会偏见(如方言歧视)效果有限,需改进数据收集和对齐方法。
  • 改进方向
    • 设计更敏感的偏见检测工具(如多模态结合)。
    • 构建更均衡的训练数据,增加少数群体语言的代表性。
    • 探索不依赖人类直接反馈的对齐方法,或结合心理学理论(如隐性联想测试)优化模型。

总结
这篇论文泼了盆冷水:RLHF虽然能让模型在表面上更“合规”,但对深层的隐性偏见效果微弱,甚至可能因数据和方法限制导致新问题。要让AI真正“公平”,可能需要从数据源头、训练方法到评估体系的全面革新。

相关文章:

  • Java大师成长计划之第4天:Java中的泛型
  • Yarn 安装与使用教程
  • 自动化测试方法有哪些?
  • 【软考-架构】14、软件可靠性基础
  • 深入解析 ASP.NET Core 中的 ResourceFilter
  • 从像素到实例:揭示图像分割如何改变视觉世界
  • 线程池单例模式
  • 【设计模式区别】装饰器模式和适配器模式区别
  • 单例设计模式之懒汉式以及线程安全问题
  • 从循环角度分析逐位分离法
  • 【人工智能之大模型】详述大模型中流水线并行(Pipeline Parallelism)的​GPipe推理框架?
  • 如何选择合适的探针台
  • C#中wpf程序中的x名空间详解
  • 微信小程序 template 模版详解
  • 机器学习之二:指导式学习
  • 精益数据分析(27/126):剖析用户价值与商业模式拼图
  • 有源晶振与无源晶振详解:区别、应用与选型指南
  • 电子电器架构 --- 乘用车电气/电子架构开发的关键挑战与应对策略
  • SQL 查询进阶:WHERE 子句与连接查询详解
  • 【高频考点精讲】前端职业发展:如何规划前端工程师的成长路径?
  • 葛兰西的三位一体:重提并复兴欧洲共产主义的平民圣人
  • 三杀皇马剑指四冠,硬扛到底的巴萨,赢球又赢人
  • 靳燕出任中央戏剧学院党委副书记,原任中戏院长助理
  • 第三款在美获批的国产PD-1肿瘤药来了,影响多大?
  • 2025全国知识产权宣传周:用AI生成的图片要小心什么?
  • 印媒称印巴在克什米尔控制线沿线发生小规模交火,巴方暂未回应