当前位置: 首页 > news >正文

论文阅读:2023 arxiv Safe RLHF: Safe Reinforcement Learning from Human Feedback

总目录 大模型安全相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328

Safe RLHF: Safe Reinforcement Learning from Human Feedback

https://arxiv.org/pdf/2310.12773

https://github.com/PKU-Alignment/safe-rlhf

速览

  • 研究动机:大语言模型发展中,平衡性能与安全至关重要,现有方法在平衡有用和无害性上存在挑战。
  • 研究问题:如何设计算法平衡大语言模型有用性和无害性,使其兼具帮助性、安全性与回应意愿?
  • 研究方法:提出Safe RLHF算法,解耦人类偏好,构建奖励和成本模型,利用拉格朗日法在微调时平衡两个目标。
  • 研究结论:实验表明Safe RLHF能有效提升大语言模型的帮助性和无害性,优于静态平衡算法。
  • 不足:无法获取预训练数据,SFT数据质量和规模不足,缺乏前后检查策略且成本高。

这篇论文叫《SAFE RLHF: SAFE REINFORCEMENT LEARNING FROM HUMAN FEEDBACK》,主要是说随着大语言模型(LLMs)发展,要平衡模型性能和安全性,提出了Safe RLHF算法来解决相关问题。下面从背景、方法、实验等方面,用通俗的话来讲讲具体内容。

  1. 研究背景:大语言模型在很多方面表现出色,但它生成的内容不能有害,像歧视、错误信息等都不行。强化学习从人类反馈(RLHF)是让大语言模型符合人类偏好的好方法,不过追求有用性和无害性这两个目标在实际中会相互矛盾。比如模型拒绝回答问题,虽然安全但没什么用。所以,研究的目标就是要开发出既有用、又安全还愿意回答问题的大语言模型。
  2. 研究方法:提出Safe RLHF算法,核心是在数据标注时把人类对有用性和无害性的偏好分开,设立两个优化目标。在数据标注阶段,采用两阶段标注策略,标注员根据14个预定义的伤害类别给问答对标注安全性,再分别对回答的有用性和无害性进行排序。然后,训练两个独立的偏好模型,即奖励模型和成本模型。奖励模型根据有用性数据集训练,为强化学习阶段提供有用性的奖励信号;成本模型根据无害性数据集训练,能体现人类对大语言模型回答安全性的看法。在强化学习阶段,用奖励模型评估有用性,成本模型评估无害性,通过拉格朗日方法动态调整两者的平衡。
  3. 实验:用Safe RLHF算法对Alpaca - 7B模型进行了三轮微调实验。实验结果表明,Safe RLHF能同时提高大语言模型的有用性和无害性。和传统的单维标注和训练相比,Safe RLHF标注时标注员之间的一致性更高,和研究人员的一致性也更高,而且在训练阶段能主观调整平衡有用性和无害性。和采用静态平衡的奖励塑造方法相比,Safe RLHF能更好地平衡有用性和无害性这两个目标。另外,对比实验还证明了成本模型设计的重要性,它能同时拟合人类偏好和安全标签,对实现Safe RLHF的成功很关键。
  4. 研究局限和未来工作:研究存在一些局限,比如无法获取预训练数据,没有大量高质量的监督微调数据,虽然通过模型微调实现了安全对齐,但还需要加入预检查和后检查策略,而且研究成本高。未来打算扩展框架,纳入更多偏好类别,将模型应用到多轮对话场景,还考虑用Llama - 2作为基础预训练模型来提升性能。
  5. 研究贡献:这篇论文提出的Safe RLHF算法是首次将安全强化学习和RLHF框架结合,在大语言模型微调时有效平衡了有用性和无害性这两个常常冲突的目标,对基于大语言模型的人工智能系统安全性有重要意义。

相关文章:

  • Spring Boot日志系统详解:Logback与SLF4J的默认集成
  • iOS Facebook 登录
  • CentOS7执行yum命令报错 Could not retrieve mirrorlist http://mirrorlist.centos.org
  • 【刷题Day19】HTTP的各个版本(浅)
  • iOS Google登录
  • 2025妈妈杯数学建模B题完整分析论文
  • 【全部更新】2025妈妈杯D题1-4问mathercupD题数学建模挑战赛D题数学建模思路代码文章教学短途运输货量预测及车辆调度问题
  • 2025MathorcupD题 短途运输货量预测及车辆调度问题 保姆级教程讲解|模型讲解
  • 36V转2.8V3A同步降压恒压WT6043A
  • 下载HBuilder X,使用uniapp编写微信小程序
  • 数控机床中滚珠导轨的作用是什么?
  • 深度学习神经网络全连接笔记day1
  • 深入浅出目标检测:从入门到YOLOv3,揭开计算机视觉的“火眼金睛”
  • 如何评价2025 mathorcup妈妈杯数学建模竞赛?完整建模过程+完整代码论文全解全析来了
  • Spring Boot自动配置原理深度解析:从条件注解到spring.factories
  • 代码随想录算法训练营第二十一天
  • 工作总结(十二)——迁移svn单项目到gitlab上,保留历史提交记录
  • 使用 Docker 安装 Elastic Stack 并重置本地密码
  • STM32CubeMX-H7-15-SPI通信协议读写W25Q64
  • 第11篇:Linux程序访问控制FPGA端HEX<四>
  • 小鹏机器人IRON亮相上海车展,何小鹏:相信更多人形机器人会现身车展
  • 国家卫健委:坚决反对美国白宫网站翻炒新冠病毒“实验室泄漏”
  • 解密帛书两千年文化传承,《帛书传奇》央视今晚开播
  • “低头捡星光”,艺术创作直面三江源生态保护
  • 中国泳协:新奥运周期竞争激烈,“三从一新”全力提升实力
  • 什么是中国好手艺?材美、工巧、器韵、时宜