当前位置：首页 > news >正文

【深度强化学习 DRL 快速实践】异步优势演员评论员算法 (A3C)

news 来源：原创 2025/4/26 1:56:06

在这里插入图片描述

Asynchronous Advantage Actor-Critic A3C (2016, DeepMind)

异步优势演员评论员算法 (A3C): 继承 actor-critic 的优势，同时通过异步多线程 (团队作战) 加速了训练过程

model-free, actor-critic

核心改进点	说明
异步并行训练 – Asynchronous (无经验回放)	通过多个异步 agent 并行采样，打破数据相关性，提升训练效率 ; 并异步更新共享的全局网络，减少了训练过程中的延迟和等待
优势函数 – Advantage	通过计算 $A(s_t, a_t) = R_t - V(s_t; \theta_v)$ 来减小策略梯度的方差
熵正则化项（Entropy Regularization）	引入熵正则项 $H(\pi)$ ，鼓励策略网络保持多样性，增强探索性，避免过早收敛到局部最优

A3C 网络更新

Critic 网络更新: $\theta^v$

Critic 通过最小化价值函数的损失来学习 (不熟悉 TD 的先看专栏下对应的那篇~)：

$L_{\text{value}} = ( r_t + \gamma V(s_{t+1})- V(s_t))^2$

Actor 网络更新: $\theta^\mu$

Actor 通过最大化期望回报来更新，使用 Advantage 来减少 PG 的方差 (不熟悉 policy gradient 的先看专栏下对应的那篇~)：

$L_{\text{policy}} = - \log \pi(a_t | s_t) A(s_t, a_t)$

其中 Advantage $A(s_t, a_t)$ 可以估计为：

$A(s_t, a_t) = r_t + \gamma V(s_{t+1})- V(s_t)$

总的损失函数

通常，A3C 的总损失函数包含三部分：

策略损失（Policy Loss）
价值损失（Value Loss）
熵正则化项（Entropy Loss，用来增加探索性）

完整的目标函数为：

$L_{\text{policy}} + c_1 L_{\text{value}} - c_2 H(\pi(s_t))$

其中：

$H(\pi)$ 是策略的熵，鼓励策略探索
$c_1, c_2$ 是权重系数

参考资料：A3C详解

相关文章：

豆瓣图书数据采集与可视化分析（三）- 豆瓣图书数据统计分析

基于ssm的小区物业管理系统(源码+数据库)

vue2实现Blod文件流下载

AI生成创作图片操作流程一分钟学会！

多层pcb工厂哪家好？

Python数据分析案例72——基于股吧评论数据的情感分析和主题建模(LDA)

Linux：进程间通信---匿名管道

影视配乐神器：专业级音乐库TOP榜

头歌实训之索引

【金仓数据库征文】-数据库界新兴前列者，本篇带你速懂金仓数据库！

PHP：点击/拖动-上传图片文件目录，并存入数据库

vc++ 如何调用poco库

深入理解C++ 中的list容器

python四级考试经验（考生必看）

风光储能+智能调度，这才是企业未来能源管理的最优解

velero备份与恢复流程是什么?

《WebGIS之Vue零基础教程》（5）计算属性与侦听器

如何利用CST把PCB的S参数生成Spice电路模型

Java常用API详解

Shell脚本-for循环语法结构

审议民营经济促进法草案等，十四届全国人大常委会第十五次会议将举行

上海黄浦一季度实到外资总量全市第二，同比增速领先全市

冲击一英里4分钟大关，基普耶贡挑战女子中长跑极限

生态环境部：我国核电规模全球第一，总体安全可控

金融监管总局：支持将上海打造成具有国际竞争力的再保险中心

920余名在缅甸当阳等地实施跨境电信网络诈骗的中国籍犯罪嫌疑人被移交我方