2025.4.21-2025.4.26学习周报
目录
- 摘要
- Abstract
- 1 文献阅读
- 1.1 模型架构
- 1.1.1 动态图邻接矩阵的构建
- 1.1.2 多层次聚合机制模块
- 1.1.3 AHGC-GRU
- 1.2 实验分析
- 总结
摘要
在本周阅读的论文中,作者提出了一种名为AHGCNN的自适应层次图卷积神经网络。AHGCNN通过将监测站点视为图结构中的节点,利用图卷积网络捕捉复杂的空间依赖性,并结合时间序列建模可以准确的预测未来空气质量变化。相较于传统模型,AHGCNN通过数据驱动的邻接矩阵生成,摒弃了依赖先验知识的固定邻接矩阵,从历史数据中学习站点间的真实空间关系,反映空气质量受气象条件、风向等动态因素影响的特性。其自适应动态图结构通过层次映射图卷积,动态调整邻接矩阵,适应随时间变化的空间依赖性,捕捉污染扩散等动态过程。此外,AHGCNN利用注意力机制整合多层图卷积的输出,自动选择对预测任务最有价值的信息,增强了对复杂时空模式的建模能力。尽管模型在建模上更为复杂,但通过降维技术和参数共享,其参数量和训练时间均保持在较低水平,展现出了良好的实用性。
Abstract
In the paper read this week, the author proposed an adaptive hierarchical graph convolutional neural network called AHGCNN. AHGCNN can accurately predict future air quality changes by treating monitoring stations as nodes in a graph structure, capturing complex spatial dependencies using graph convolutional networks, and combining them with time series modeling. Compared to traditional models, AHGCNN generates a data-driven adjacency matrix, abandoning the fixed adjacency matrix that relies on prior knowledge. It learns the real spatial relationships between stations from historical data and reflects the dynamic factors such as meteorological conditions and wind direction that affect air quality. At the same time, its adaptive dynamic graph structure dynamically adjusts the adjacency matrix through hierarchical mapping graph convolution, adapts to temporal spatial dependencies, and captures dynamic processes such as pollution diffusion. In addition, AHGCNN utilizes attention mechanisms to integrate the outputs of multi-layer graph convolutions, automatically selecting the most valuable information for prediction tasks, enhancing its ability to model complex spatiotemporal patterns. Although the model is more complex in modeling, its parameter count and training time are kept at a low level through dimensionality reduction techniques and parameter sharing, demonstrating good practicality.
1 文献阅读
本周阅读了一篇名为Learning spatiotemporal dependencies using adaptive hierarchical graph convolutional neural network for air quality prediction的论文
论文地址:添加链接描述
AHGCNN通过创新的自适应动态图结构和多层次聚合机制,有效捕捉了空气质量数据中的复杂时空依赖性。实验结果表明,AHGCNN在短期和长期预测中均表现出色,且计算成本较低,具有实际应用的潜力。
1.1 模型架构
AHGCNN将监测站视为图结构中的节点,利用图卷积网络处理空间关系,同时结合了时间序列建模来预测未来趋势。AHGCNN的总体架构由以下三个核心模块组成:自适应动态图结构构建模块、多层次聚合机制模块和编码和解码模块。结构如下图所示:
首先,模型先用处理好的数据构建邻接矩阵,通过HGMC模块进行图零阶矩阵的动态调整,将最后构建确认的图结构输入到多层图卷积中进行特征聚合,通过AHGC-GRU编码器将聚合特征进行时间序列的建模,最后经模型的解码器生成最后的预测结果,各部分的详细分析如下:
1.1.1 动态图邻接矩阵的构建
空气质量的空间依赖性会随时间变化,例如风向改变或污染源移动会导致站点间的关系动态调整。传统GCN使用固定的邻接矩阵,无法捕捉这种变化。AHGCNN通过层次映射图卷积(Hierarchical Mapping Graph Convolution, HMGC)*动态更新每一层的邻接矩阵 Am,使其适应当前时间步的空间特性。这部分通过降维技术减少参数量,提高计算效率。
这种方法可以和之前学过的另一种动态图邻接矩阵的生成形成对比,它是通过注意力机制来实现的,其构建过程如下所示:
(1)首先,将每个站点在当前时间步的数据特征输入模型,通过一个线性变换(这里通常是一个全连接层),将这些特征映射到一个高维空间,生成每个站点的嵌入向量。
(2)通过空间注意力机制进行注意力分数计算
(3)将每个站点的所有相似度分数输入一个Softmax函数进行归一化。归一化后的结果表示的就是站点之间的连接强度。
此后将所有归一化后的注意力分数填入矩阵中,就得到了当前时间步的动态邻接矩阵。
以一个简单的例子为例:
其代码实现如下:
import numpy as np# 站点数量
num_nodes = 3# 时间步 t=1 的流量特征
features_t1 = np.array([1, 2, 3]).reshape(-1, 1)# 时间步 t=2 的流量特征
features_t2 = np.array([3, 1, 2]).reshape(-1, 1)# 1. 构建静态邻接矩阵
A_static = np.array([[0, 1, 1],[1, 0, 1],[1, 1, 0]
])print("静态邻接矩阵 A_static:\n", A_static)# 2. 构建动态邻接矩阵(使用点积注意力)
def compute_dynamic_adj(features):# 计算注意力分数(点积)scores = np.dot(features, features.T)# 减去每行的最大值,防止溢出scores_stable = scores - np.max(scores, axis=1, keepdims=True)# Softmax 归一化(按行归一化)exp_scores = np.exp(scores_stable)A_dynamic = exp_scores / np.sum(exp_scores, axis=1, keepdims=True)return A_dynamic# 时间步 t=1 的动态邻接矩阵,精确到小数点后四位
A_dynamic_t1 = compute_dynamic_adj(features_t1)
print("\n时间步 t=1 的动态邻接矩阵 A_dynamic_t1:\n", np.round(A_dynamic_t1, 4))# 时间步 t=2 的动态邻接矩阵,精确到小数点后四位
A_dynamic_t2 = compute_dynamic_adj(features_t2)
print("\n时间步 t=2 的动态邻接矩阵 A_dynamic_t2:\n", np.round(A_dynamic_t2, 4))
得到输出如下:
静态邻接矩阵 A_static:[[0 1 1][1 0 1][1 1 0]]时间步 t=1 的动态邻接矩阵 A_dynamic_t1:[[0.09 0.2447 0.6652][0.0159 0.1173 0.8668][0.0024 0.0473 0.9503]]时间步 t=2 的动态邻接矩阵 A_dynamic_t2:[[0.9503 0.0024 0.0473][0.6652 0.09 0.2447][0.8668 0.0159 0.1173]]
1.1.2 多层次聚合机制模块
图卷积网络通常有多层结构,每一层的输出捕捉不同尺度的空间依赖性。传统方法仅使用最后一层的输出,可能丢失低层特征中的局部信息。AHGCNN通过注意力机制整合多层输出根据每一层的贡献动态加权,生成最终特征表示。这种方法增强了模型对重要信息的选择能力。
通过注意力机制,模型能够自适应地聚焦于对预测任务最有价值的层级特征,例如短期局部扩散或长期区域趋势。
1.1.3 AHGC-GRU
AHGCNN采用序Seq2Seq架构,其中编码器和解码器由AHGC-GRU组成。编码器处理历史数据,提取时空特征;解码器基于这些特征生成未来预测值。AHGC-GRU结合了HMGC的空间建模能力和GRU的时间建模能力,其结构如下图所示:
它的输入是当前时间步的特征 ht 和上一时刻的隐藏状态Ht-1。通过将传统的GRU的门控机制转换为AHGC操作,通过门控机制改造,将传统GRU中的全连接层替换为自适应层次图卷积(AHGC),使得模型能够捕捉空间依赖:通过动态图卷积建模站点间的隐含关;平衡了时空特征:更新门和重置门动态调整历史状态与当前输入的权重。除此也实现了更高效的计算,参数共享和低秩分解降低复杂度,适合大规模传感器网络。
1.2 实验分析
(1)数据集
实验使用的数据集来自北京的39个站点,数据来自2018年1月1日至2020年12月31日,其中包含PM₂.₅、PM₁₀、SO₂、NO₂、CO、O₃、AQI及气象数据(压力、气温等)。
(2)评估标准
MAE:
RMSE:
基线模型由传统循环神经网络(LSTM、GRU、RNN)、时空图神经网络(Graph-WaveNet、DCRNN、MLSTGCN)以及基于Transformer的模型(Informer、FFTransformer)组成。
(3)实验结果
1)参数设置
历史序列长度与预测长度:设置为24小时,符合PM2.5日变化规律。
自适应矩阵维度(L=13):通过SVD分解平衡计算复杂度和信息保留。
学习率(0.0005):采用Adam优化器,避免梯度爆炸。
初始化策略:权重矩阵初始化为单位矩阵,偏置为零,确保训练初期稳定性。
由上图结果可知,模型在15轮迭代后收敛,训练损失稳定在0.1,验证损失约0.4,表明参数配置合理,未出现过拟合。
2)实验对比
为验证AHGCNN相对于传统模型(RNN/LSTM/GRU)和先进时空模型(Graph-WaveNet/DCRNN等)的优越性,实验将其与基线模型进行了对比:
RNN/LSTM/GRU的MAE(20.67–25.68)显著高于AHGCNN(15.84),说明忽略空间依赖严重限制性能。AHGCNN在1h预测中MAE(5.32)优于Graph-WaveNet(5.80)和DCRNN(6.45),显示动态图结构捕捉突发污染事件的能力。相比MLSTGCN(MAE=16.33),AHGCNN的层次聚合机制提升多尺度特征融合效果。Informer和FFTransformer因局部突变预测能力不足,MAE(16.47–16.78)高于AHGCNN。
3)网络架构影响实验
该部分的实验是为了验证HMGC层数对模型性能的影响,确定最优层级数,实验结果如下:
由上图可知,3层HMGC平衡了计算成本与特征表达能力。
4)性能对比
该部分实验是为了验证AHGCNN在不同预测时间点(1h–24h)的稳定性,其结果如下:
在短期预测中AHGCNN的MAE显著优于DCRNN和Graph-WaveNet,因动态图结构快速响应局部突变。在长期预测中MAE仍优于基线,因为层次聚合可以缓解误差累积。在突变时段表现中,AHGCNN在PM2.5骤升时预测误差最小,传统模型因空间信息缺失严重偏离真实值。
5)消融实验
为验证AHGCNN各组件(自适应图、注意力聚合)的必要性,作者进行了消融实验,作者设置了4个变体:
Distance_ini:用预定义距离矩阵替换自适应图。
W/O adaptive:固定单层图结构。
W/O attention:移除多级注意力聚合。
W/O both:同时移除自适应和注意力。
W/O adaptive的MAE高于AHGCNN,说明了动态图捕捉隐含依赖的关键作用,W/O attention的MAE证明了多级特征融合的必要性,W/O both的MAE证实了组件协同提升性能。
总结
通过本次的学习,我明白同一种技术的实现可能是有不同方法的,例如动态图邻接矩阵的实现就可以由本次论文中的方法或者是通过注意力机制来实现。在后续的研究的过程中,这里的思想是可以进行借鉴的,不必为了一种方法死磕。