强化学习:高级策略梯度理论与优化方法
如果您想学习强化学习,我推荐David Sliver的讲座😊:RL Course by David Silver - Lecture 1: Introduction to Reinforcement Learning - YouTube
在本文开始前,如果您还没读过我的前一篇文章,由此进:
强化学习:基础理论与高级DQN算法及策略梯度基础-CSDN博客
自然策略梯度(NPG)与信息几何
1.策略空间的黎曼流式结构
-
策略分布族:将策略参数空间视为统计流形
-
Fisher信息矩阵(黎曼度量张量):
-
KL散度的局部近似(泰勒展开到二阶):
2.自然梯度定义
-
传统梯度方向在欧氏空间,自然梯度在黎曼空间:
-
最优更新方向证明:
求解带KL约束的优化问题:
通过拉格朗日乘子法得到自然梯度方向
3.自然策略梯度更新规则
实际计算技巧:
-
使用共轭梯度法避免显示求逆
-
增广矩阵法处理秩亏问题
兼容函数逼近定理
1.严格条件陈述
当价值函数逼近器Q_w(s,a)满足:
-
兼容性:
-
最小化均方误差:
则策略梯度估计无偏:
2.证明概要
-
条件1保证价值函数梯度与策略梯度在同一方向
-
条件2保证
是
在兼容子空间上的正交投影
-
联合推导可得:
信任区域策略优化(TRPO)
1.核心目标与约束
优化问题:
2.目标函数的局部近似
-
优势函数近似(一阶泰勒展开):
其中
-
KL散度的二阶近似:
F 是Fisher信息矩阵
3.解析解推导
通过拉格朗日乘子法得到最优更新方向:
自然梯度方向 在策略流形上是最速上升方向
4.实现中的共轭梯度法
求解 的步骤
-
计算Fisher-vector product:
-
使用共轭梯度法迭代求解
-
通过回溯线搜索确保KL约束
近端策略优化(PPO)
1.剪切目标函数
其中
剪切区域分析:
-
当
,限制最大更新幅度为
-
当
,限制最小更新幅度为
2.自适应KL惩罚项
目标函数:
-
自适应规则:
典型设置:
3.重要性采样方差控制
原始重要性权重方差:
剪切后的方差上界:
直接偏好优化(DPO)
1.从奖励模型到策略的隐式转换
基于Bradley-Terry模型:
关键替换:用策略表示奖励函数
2.目标函数推导
消去奖励函数后得到:
其中 是sigmoid函数
3.隐式KL约束分析
DPO等价于带动态约束的优化:
4.梯度分析
梯度计算公式:
其中
如果您对RL和测试时间扩展感兴趣,我自推这篇文章:从理论到实践:带你快速学习基于PRM的三种搜索方法-CSDN博客