当前位置: 首页 > news >正文

动手学深度学习11.10. Adam算法-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。

本节课程地址:72 优化算法【动手学深度学习v2】_哔哩哔哩_bilibili

本节教材地址:11.10. Adam算法 — 动手学深度学习 2.0.0 documentation

本节开源代码:...>d2l-zh>pytorch>chapter_optimization>adam.ipynb


Adam算法

本章我们已经学习了许多有效优化的技术。 在本节讨论之前,我们先详细回顾一下这些技术:

  • 在 11.4节 中,我们学习了:随机梯度下降在解决优化问题时比梯度下降更有效。
  • 在 11.5节 中,我们学习了:在一个小批量中使用更大的观测值集,可以通过向量化提供额外效率。这是高效的多机、多GPU和整体并行处理的关键。
  • 在 11.6节 中我们添加了一种机制,用于汇总过去梯度的历史以加速收敛。
  • 在 11.7节 中,我们通过对每个坐标缩放来实现高效计算的预处理器。
  • 在 11.8节 中,我们通过学习率的调整来分离每个坐标的缩放。

Adam算法 (Kingma and Ba, 2014) 将所有这些技术汇总到一个高效的学习算法中。 不出预料,作为深度学习中使用的更强大和有效的优化算法之一,它非常受欢迎。 但是它并非没有问题,尤其是 (ef="https://zh-v2.d2l.ai/chapter_references/zreferences.html#id134">Reddiet al., 2019) 表明,有时Adam算法可能由于方差控制不良而发散。 在完善工作中, (f="https://zh-v2.d2l.ai/chapter_references/zreferences.html#id193">Zaheeret al., 2018) 给Adam算法提供了一个称为Yogi的热补丁来解决这些问题。 下面我们了解一下Adam算法。

算法

Adam算法的关键组成部分之一是:它使用指数加权移动平均值来估算梯度的动量和二次矩,即它使用状态变量

\begin{aligned} \mathbf{v}_t & \leftarrow \beta_1 \mathbf{v}_{t-1} + (1 - \beta_1) \mathbf{g}_t, \\ \mathbf{s}_t & \leftarrow \beta_2 \mathbf{s}_{t-1} + (1 - \beta_2) \mathbf{g}_t^2. \end{aligned}

这里 \beta_1 和 \beta_2 是非负加权参数。 常将它们设置为 \beta_1 = 0.9 和 \beta_2 = 0.999 。 也就是说,方差估计的移动远远慢于动量估计的移动。 注意,如果我们初始化 \mathbf{v}_0 = \mathbf{s}_0 = 0 ,就会获得一个相当大的初始偏差。 我们可以通过使用 \sum_{i=0}^t \beta^i = \frac{1 - \beta^t}{1 - \beta} 来解决这个问题。 相应地&#

相关文章:

  • Pacman-Multi-Agent Search
  • 深度解析:具身AI机器人领域最全资源指南(含人形机器人,多足机器人,灵巧手等精选资源)
  • AiCube 试用 - ADC 水位监测系统
  • 如何培养团队的责任感与归属感
  • 多节点同步协同电磁频谱监测任务分配方法简要介绍
  • 【vue3】购物车实战:从状态管理到用户体验的全流程实现
  • 测量电机的电阻、电感、磁链常数和极对数办法
  • Go语言之路————指针、结构体、方法
  • Python 基础核心知识
  • (done) 吴恩达版提示词工程 6. 转换 (翻译,通用翻译,语气风格变换,文本格式转换,拼写检查和语法检查)
  • javaWeb开发---前后端开发全景图解(基础梳理 + 技术体系)
  • 2025-4-25 情绪周期视角复盘(mini)
  • view、reshape、resize 的区别
  • 简单的 shell 程序
  • 前端-介绍一个好用的波浪背景生成器
  • LeetCode热题100--438.找到字符串中所有字母异位词--中等
  • 参数规模:衡量大语言模型体量的标尺
  • 互联网的下一代脉搏:深入理解 QUIC 协议
  • iterm2 使用 zmodem(lrzsz)传输文件
  • 大模型——Spring.new快速构建AI驱动的定制化商业应用
  • 深圳宝安区一宗涉宅用地中止出让,起始总价86.27亿元
  • “自己生病却让别人吃药”——抹黑中国经济解决不了美国自身问题
  • 马上评丨市长信箱“已读乱回”,群众在意的是什么
  • 贸促会答澎湃:5月22日将举办2025年贸易投资促进峰会
  • 中国纪检监察报刊文:要让劳动最光荣成为社会的崇高风尚
  • 我国已形成完整人工智能产业体系,专利申请量位居全球首位