强化学习(Reinforcement Learning, RL)与深度强化学习(Deep Reinforcement Learning, DRL)
1. 基本概念
强化学习(RL)
- 定义:通过试错与环境交互,学习策略以最大化累积奖励的机器学习范式。
- 核心思想:智能体在环境中执行动作,接收奖励信号并更新策略,最终学会在特定状态下选择最优动作。
- 关键组件:
- 马尔可夫决策过程(MDP): 定义状态(State)、动作(Action)、奖励(Reward)、转移概率(Transition)和折扣因子(γ)。
- 策略(Policy): 状态到动作的映射(如确定性策略或随机策略)。
- 价值函数(Value Function): 评估长期累积奖励的期望值。
深度强化学习(DRL)
- 定义:将深度学习(Deep Learning)与强化学习结合,利用深度神经网络(DNN)解决高维状态/动作空间问题。
- 核心思想:用神经网络逼近价值函数(如Q值)或直接学习策略,解决传统RL中难以处理的状态表示问题(如图像、语音)。
- 关键突破:
- 2013年DQN(Deep Q-Network)在Atari游戏中的成功应用,首次证明DRL在高维输入下的有效性。
2. 核心区别与联系
特征 | 强化学习(RL) | 深度强化学习(DRL) |
---|---|---|
状态表示 | 依赖人工设计特征(低维、结构化) | 自动从原始数据(高维、非结构化)中学习特征 |
函数逼近方法 | 表格法(Q表)或线性函数逼近 | 深度神经网络(如CNN、RNN、Transformer) |
适用场景 | 状态空间小、离散动作的问题(如格子世界) | 高维状态/动作空间(如视觉输入、机器人控制) |
样本效率 | 高(需少量样本) | 低(需大量交互数据) |
计算复杂度 | 低 | 高(依赖GPU加速训练) |
典型算法 | Q-Learning、SARSA、策略梯度 | DQN、PPO、A3C、SAC、TD3 |
联系:
- DRL是RL的子集,保留了RL的交互学习框架(如奖励最大化、策略优化)。
- 两者均面临探索-利用权衡(Exploration vs. Exploitation)和延迟奖励(Delayed Reward)的挑战。
3. 算法分类与典型方法
传统强化学习算法
- 基于价值(Value-Based):
- Q-Learning:通过更新Q表选择最优动作,适用于离散动作空间。
- SARSA:在策略(On-policy)的时序差分算法。
- 基于策略(Policy-Based):
- REINFORCE:直接优化策略参数,适用于连续动作空间。
- Actor-Critic:
- 结合价值函数(Critic)和策略(Actor),如A2C(Advantage Actor-Critic)。
深度强化学习算法
- 深度Q网络(DQN):
- 用CNN提取图像特征,通过经验回放和固定目标网络稳定训练。
- 改进版本:Double DQN、Dueling DQN、Rainbow。
- 策略梯度类:
- PPO(Proximal Policy Optimization):通过剪切策略更新步长提高稳定性。
- TRPO(Trust Region Policy Optimization):约束策略更新的KL散度。
- 混合方法:
- SAC(Soft Actor-Critic):结合最大熵RL与Actor-Critic,适用于连续控制。
- TD3(Twin Delayed DDPG):通过双Q网络缓解过估计问题。
4. 应用场景
传统RL适用场景
- 简单控制问题(如倒立摆、机器人路径规划)。
- 棋盘游戏(如Q-Learning用于井字棋)。
DRL适用场景
- 游戏AI:AlphaGo(围棋)、AlphaStar(星际争霸)、OpenAI Five(Dota 2)。
- 机器人控制:机械臂抓取、双足机器人行走(如波士顿动力)。
- 自动驾驶:高维视觉输入下的决策与路径规划。
- 资源调度:数据中心能耗优化、5G网络资源分配。
- 医疗:个性化治疗策略优化(如癌症放疗剂量规划)。
5. 研究挑战
共同挑战
- 样本效率(Sample Efficiency):DRL需要大量交互数据,难以直接应用于现实场景。
- 探索与利用(Exploration-Exploitation Trade-off):如何平衡尝试新动作与利用已知最优动作。
- 奖励设计(Reward Shaping):稀疏奖励或错误奖励函数会导致策略失效。
DRL特有挑战
- 训练稳定性:神经网络非线性导致的收敛困难(如Q值过估计)。
- 泛化能力:在未见过的环境中表现可能急剧下降。
- 安全性与鲁棒性:高风险场景(如自动驾驶)中DRL的决策安全性问题。
6. 未来方向
- 样本高效DRL:结合元学习(Meta-Learning)或模仿学习(Imitation Learning)。
- 多模态DRL:处理视觉、语音、文本等多模态输入。
- 分布式与并行化:利用大规模计算资源加速训练(如IMPALA算法)。
- 理论分析:深度RL的泛化理论、收敛性证明。