当前位置: 首页 > news >正文

何恺明团队又发新作!!-用于物理推理的去噪哈密顿网络

众所周知,在科学研究领域,物理推理能力至关重要,它涵盖了对动态系统行为的推断、预测和解释,是探索自然规律的基石。随着机器学习技术的发展,用于解决物理问题的机器学习框架备受关注。这类框架期望突破单纯的数据记忆,遵循物理定律,深入阐释能量与力的内在联系,并融入结构化归纳偏差,以超越纯粹基于数据驱动的模型。科学机器学习通过将物理约束直接融入神经网络架构(常借助显式构建物理算子的方式)来达成这一目标。

然而,当前这些方法存在两个关键缺陷。一方面,它们大多聚焦于学习局部的时间更新过程,仅预测相邻时间步之间的状态转换,却忽视了长距离的依赖关系以及抽象的系统级交互。例如,在复杂的多体系统模拟中,无法有效捕捉不同物体在较长时间跨度下的相互影响。另一方面,这些方法过度侧重前向模拟,即从初始条件出发预测系统的演变,却在很大程度上忽视了超分辨率、轨迹修复以及从稀疏观测中进行参数估计等具有重要意义的互补任务。以超分辨率任务为例,若仅依赖现有方法,难以从低分辨率的观测数据中准确还原高分辨率的物理状态信息。

为突破这些限制,来自麻省理工学院(MIT)、斯坦福大学等知名机构的何恺明等研究者提出了创新的去噪哈密顿网络(Denoising Hamiltonian Network,DHN)。这一框架将哈密顿力学拓展到神经算子领域,为解决物理推理问题提供了新的思路。(见图 1)

图1

 

  • 论文标题:Denoising Hamiltonian Network for Physical Reasoning

  • 论文地址:https://arxiv.org/pdf/2503.07596

DHN 在充分发挥神经网络灵活性的同时,严格遵循物理约束,实现了三项关键创新:

  • 捕捉非局部时间关系:DHN 创新地将系统状态组合视作 token,对哈密顿神经算子进行扩展,使其具备捕捉非局部时间关系的能力。这样一来,它能够从系统整体出发,综合考量动态变化,而非局限于分步式的推理模式。例如,在分析天体运动时,可以同时考虑多个天体在不同时刻的相互作用,提升对复杂系统动态变化的理解和预测能力。
  • 减轻数值积分误差:受去噪扩散模型启发,DHN 引入去噪目标,有效减轻了数值积分过程中产生的误差。通过迭代优化预测结果,使其更符合物理上的有效轨迹,不仅增强了长期预测的稳定性,还能在不同噪声环境下保持良好的适应性。而且,借助多样化的噪声模式,DHN 在各类任务场景中的训练和推理过程更加灵活高效。
  • 促进多系统建模:研究者引入全局条件机制,通过共享的全局潜在代码对系统特定属性(如质量、摆长等)进行编码。这使得 DHN 能够在统一的框架下,对多种不同类型的物理系统进行建模,同时确保底层动态的解耦表示,提高了模型的通用性和适应性。

 

下图2为去噪哈密顿网络(DHN)概览。

 图2

在实验环节,为全面评估 DHN 的通用性,研究者精心设计了三项不同的推理任务进行测试,分别是轨迹预测和完成、从部分观测数据推断物理参数,以及通过渐进式超分辨率对稀疏轨迹进行插值。

综上所述,该研究推动了通用网络架构的发展,这种架构在传统局部时间关系的基础上,进一步嵌入物理约束,为物理推理领域带来了更广阔的应用前景,打破了传统前向模拟和下一状态预测的局限。

论文第一作者 Congyue Deng 在推特上分享了研究心得,她指出,过去卷积算子的扩展推动了从低级图像处理到高级视觉推理的发展,如今 DHN 通过扩展物理算子,开启了高级物理推理的新篇章。同时,她也提出了 “如何定义深度学习中的物理推理”“什么是物理模拟”“神经网络应该具备哪些物理属性” 这三个开放性问题,并表示 DHN 只是一个开端,未来还有更多的研究方向等待探索。

方法概览

在科学与工程领域,物理系统的建模与分析一直是重要课题。传统方法在处理复杂物理系统时存在诸多局限,而神经网络的发展为这一领域带来了新的可能。文章作者更聚焦于设计更通用的神经算子,旨在让其既遵循物理规律的严格约束,又充分发挥神经网络作为可优化黑箱函数的灵活性与强大表现力,进而实现对物理系统更精准、更高效的建模与分析

研究者在探索新型神经算子的过程中,提出了一个关键问题:除了传统的下一状态预测,还有哪些 “物理关系” 能够借助神经网络进行有效建模?这一问题为后续的研究指明了方向。

在深入探讨新方法之前,有必要回顾一下不借助机器学习来建模物理系统的经典方式。图3对三种经典方法进行了比较:

  1. 全局解析解决方案:对于结构规则、相对简单的物理系统,人们通常能够凭借物理原理和数学推导直接得出闭式解。这种方式具有高度的精确性和可解释性,但适用范围较为狭窄,一旦系统复杂度增加,往往难以求解。
  2. PDE + 数值积分:在更为复杂的物理环境中,当闭式解无法获得时,标准的做法是将系统的动态过程用偏微分方程(PDE)来描述,然后通过数值方法逐步求解。这种方法虽然拓展了可处理系统的范围,但计算成本较高,且数值误差的积累可能影响结果的准确性。
  3. 直接全局关系:在某些特殊的复杂系统中,比如没有耗散力的纯保守系统,时间上相距较远的状态可以借助全局守恒定律(如能量守恒定律)直接建立关联。然而,这种方法依赖于系统的特定性质,不具有广泛的通用性。

图3

为了实现更通用的物理系统建模,研究者提出了离散的哈密顿网络(图 4 展示了其结构,右侧部分用于计算时间步长 t_0 和 t_1 之间的状态关系)。在这个网络中,研究者主要利用哈密顿 H^+ 来设计网络架构,以此描述系统状态之间的关系。

图4 

在网络设计的过程中,研究者提出了去噪哈密顿网络,其核心在于掩码建模和去噪策略。研究者期望哈密顿块不仅能够对跨时间步的状态关系进行有效建模,还能学习每个时间步的状态优化,以便在推理过程中更好地处理各种情况。为此,他们采用了独特的掩码建模策略。在训练网络时,不是简单地屏蔽掉部分输入状态,而是用不同幅度的噪声采样对输入状态进行扰动(如图 5 所示)。这种策略的精妙之处在于,它能确保模型学会迭代改进预测结果,使其具备从损坏或不完整的观测结果中恢复出具有物理意义状态的能力。

图5 

具体而言,研究者定义了一个噪声水平递增的序列(见下图公式)。以阻塞输入状态为例,研究者会随机采样高斯噪声,并为每个状态设定相应的噪声规模。在实验中,去噪步数被设置为 10。在推理阶段,研究者通过一连串同步于所有未知状态的递减噪声尺度对未知状态进行逐步去噪。在这个过程中,他们同时应用特定的计算方法来迭代更新状态,以不断优化预测结果。

此外,通过设计不同的掩码模式,能够根据不同的任务制定灵活的推理策略。图 6 展示了三种不同的掩码模式:

  1. 自回归掩码模式:通过屏蔽一个数据块的最后几个状态来实现,这种模式类似于利用前向建模进行下一状态预测的物理模拟,在预测未来状态时具有重要应用。
  2. 超分辨率掩码模式:通过掩码一个数据块中间的状态来实现,可应用于数据插值任务,在处理需要提高数据分辨率的场景中发挥作用。
  3. 随机掩码模式:更广泛地说,包括随机掩码在内的任意顺序掩码,掩码模式可根据任务要求进行自适应设计,为不同的物理推理任务提供了极大的灵活性。

图6

在网络架构方面,研究者采用了纯解码器 Transformer。对于每个哈密顿块,网络输入是不同时间步的状态栈,同时还引入了整个轨迹的全局潜码 z 作为条件(如图 7 所示)。这种架构类似于 GPT 的纯解码器架构,但没有因果注意力掩码。研究者将所有输入 token 作为长度为 2b + 1 的序列应用自注意力机制,其中全局潜码 z 作为查询 token,用于输出哈密顿值 H。此外,研究者还通过在位置嵌入中添加每个状态的噪声标度,将噪声信息编码到网络中。在实验中,研究者实现了一个适合单 GPU 运行的简单双层 Transformer,这种设计在保证模型性能的同时,提高了计算效率。

图7

在自解码方面,研究者没有依赖编码器网络从轨迹数据中推断全局潜码,而是采用了自解码器框架。在这个框架下,为每条轨迹维护一个可学习的潜码 z(图 8 展示了该过程)。这种方法使得模型能够高效地存储和完善特定系统的嵌入,避免了单独编码过程带来的复杂性和计算成本。在训练过程中,研究者会联合优化网络权重和代码库。当训练结束后,给定一个新轨迹,冻结网络权重,仅对新轨迹的潜码进行优化,从而实现对新数据的快速适应。

图8

为了全面评估模型的性能,研究者采用了两种实验设置:单摆和双摆系统。这两种设置都包含模拟轨迹数据集,各自具有独特的物理特性。单摆是一个周期性系统,每个状态下的总能量都可以通过 (q, p) 直接计算出来,因此被用于评估模型的能量守恒能力;双摆是一个混沌系统,微小的扰动就会导致未来状态的显著偏离,可用于测试模型在复杂动态系统中的表现。

研究者用与图 6 中三种不同掩码模式相对应的三种不同任务来测试模型,这些任务分别是:

  1. 前向模拟 - 下一状态预测(自回归):用于评估模型在预测物理系统未来状态方面的能力,模拟物理系统的动态演化过程。
  2. 表征学习 - 随机掩蔽表示学习:通过随机掩蔽输入数据,测试模型学习物理系统特征表示的能力,进而推断物理参数。
  3. 轨迹插值 - 渐进式超分辨率:用于检验模型在处理不完整数据时,通过插值恢复完整轨迹的能力。

这些任务突出了去噪哈密顿网络(DHN)对各种物理推理挑战的适应性,全面测试了它在不同观测限制条件下生成、推断和插值系统动态的能力。

在具体的实验结果方面:

在具体的实验结果方面:

前向模拟
  • 拟合已知轨迹:图 9 展示了采用不同块大小的模型与采用不同数值积分器的哈密顿神经网络(HNN)的比较结果。左图和右图分别呈现了单摆和双摆系统在每个时间步的 q 预测值的均方误差(MSE),中间的图显示了一个示例轨迹上的平均总能量误差和总能量的演变。对于 DHN,每个时间步的状态优化由去噪机制建模,无需变分积分器。当块大小为 2 时,模型可以稳定地保存总能量;增加块大小会在较长的时间范围内引起能量波动,但这种波动并没有表现出明显的能量漂移倾向。

图9 

  • 以新颖的轨迹完成:图 10 展示了 DHN 与 HNN(上行)和各种无物理约束基线模型(下行)的比较结果。可以看出,DHN 采用较小的块大小,在状态预测上更准确,并且节能效果更好。

图10 

 表征学习

图 11 展示了与 HNN 和常规网络相比,DHN 在不同块大小(s = b/2)下的线性探测结果。与基线网络相比,本文的模型实现了更低的 MSE。如图 4 所示,HNN 可以看作是哈密顿块的特例,其核大小和步长均为 1,具有最强的局部性。研究者引入的块大小和跨度允许模型在不同尺度上观察系统。在这个双摆系统中,块大小为 4 是推断其参数的最佳时间尺度。

图11 

图 12 展示了不同块大小和步长的 DHN 结果。如图 12b 所示,哈密顿块的输入和输出状态有一个 b-s 时间步长的重叠区域。哈密顿块的广义能量守恒依赖于重叠区域具有相同的输入和输出。在训练过程中,这一约束作为状态预测损失的一部分强加给网络。较大的重叠会对网络施加更强的正则化,但会鼓励网络执行更多的自一致性约束,而不是更多的状态间关系。相反,减少重叠度的同时增加跨度,可以鼓励模型吸收更多时间上较远的状态信息,但代价是削弱自洽性约束,从而影响稳定性。在重叠等于块大小 b 且跨度为零的极端情况下,DHN 块的输入和输出完全相同,训练损失退化为自相干约束。HNN 是另一种重叠为零的特殊情况(因为块大小为 1,重叠只能为零)。如 12b 所示,对于简单双层 transformer,最佳的块大小和跨度约为 s≈ b/2,重叠量适中。 

图12 

轨迹插值
  • 研究者通过重复应用 2 倍超分辨率来实现 4 倍超分辨率。如图 13 左所示,为每个阶段构建一个 b = 2s = 1 的 DHN 块。不同稀疏度的轨迹块如图 13 右所示,掩码应用于中间状态,边上的两个状态是已知的。

图13 

在所有三个超分辨率阶段中,每个轨迹都与共享的全局潜码相关联,从而为训练集形成一个结构化代码集。在训练过程中,网络权重和这些潜码会在逐步细化阶段(0、1、2)中共同优化。在推理时,给定一个仅在最稀疏水平(第 0 阶段)已知状态的新轨迹,研究者冻结了 DHN 块中的所有网络权重,并优化第 0 阶段的全局潜码。

 

最后,研究者将本文模型与用于超分辨率的 CNN 进行了比较,结果如图 14 所示。对于与训练数据具有相同初始状态的轨迹,两个模型都显示出较好的插值结果,MSE 也较低。基线 CNN 的结果稍好,因为它本身没有正则化,很容易过拟合训练轨迹。对于具有未知初始状态的测试轨迹,CNN 难以实现泛化,因为其插值在很大程度上依赖于训练分布。相比之下,DHN 具有很强的泛化能力,因为其物理约束表征使其即使在分布变化的情况下也能推断出可信的中间状态。

图14 

 

相关文章:

  • Linux基础命令总结
  • Set的学习
  • 论文如何降低AIGC?(完整指南版)
  • 【Linux系统篇】:信号的生命周期---从触发到保存与捕捉的底层逻辑
  • 长途骑行装备攻略:VELO维乐 Angel Revo坐垫伴我畅享旅途
  • arcpy列表函数的应用
  • ClickHouse查询执行与优化
  • Linux基础篇、第4章_03系统磁盘高级管理LVM 逻辑卷管理器
  • 腾讯二面:TCC分布式事务 | 图解TCC|用Go语言实现一个TCC
  • java中的Selector详解
  • 高中数学联赛模拟试题精选第18套几何题
  • 前端职业发展:如何规划前端工程师的成长路径?
  • 二叉树层序遍历
  • React-Hook
  • Java基础第五章、面向对象程序设计
  • AIGC赋能智慧医疗:从影像诊断到个性化治疗的革命性突破
  • 初始网络流(最小割)
  • 构建AI大模型应用的LangChain之核心功能
  • USART串口通讯
  • 计算机网络基本概念
  • 又一名90后干部被查,已有多人倒在乡镇领导岗位上
  • 阿联酋启动第三届全球航空奖评选,奖金总额达百万美元
  • 博物馆有一项活动40岁以上不能参加?馆方回应
  • 神十九乘组视频祝福第十个中国航天日,展望中华民族登月梦圆
  • 新《火灾统计管理规定》即将施行,火灾死亡统计时限延长
  • 特斯拉一季度净利下滑七成,马斯克表态将继续倡导关税下调