当前位置：首页 > news >正文

PCA Jittering 图像增强

news 来源：原创 2025/4/28 2:26:25

文章目录

PCA Jittering
- 具体流程
- 具体步骤
- 参考文献

PCA Jittering

PCA Jittering $^{[1]}$ 可以找出图像 RGB 通道中的主要色系，并大幅改变主要色系的值，而图像的整体色调不发生改变。简言之，PCA Jittering 通过扰动颜色通道，在不过度扭曲图像语义的前提下，提升了模型对颜色变化的鲁棒性，因此也是一种有效的图像增强方法。效果图如下：

在这里插入图片描述

具体流程

PCA Jittering的具体流程 $^{[2]}$ ：首先，对整个训练集图像的 RGB 三通道进行主成分分析，得到协方差矩阵，并计算特征值和特征向量；其次，在特征值中添加高斯抖动（Jittering），并将特征值与特征向量相乘；最后，将相乘后的结果添加到原图像中，从而改变原图像 RGB 三通道的强度，并将通过 PCA Jittering 处理过的图像添加到训练集中进行训练，从而增加训练集的数量，具体流程图如下：

在这里插入图片描述

具体步骤

获取原图像 $I_\mathrm{xy}$ ，拆分原图像 $I_\mathrm{xy}$ 的 RGB 三通道，得到三通道的值 $I_{xy}^R、I_{xy}^G、I_{xy}^B。$
以 $I_{xy}^R$ 为例，为了消除奇异数据的影响，对 $I_{xy}^R$ 进行归一化。归一化的公式如下：

$I_{xy}^R=\frac{I_{xy}^R}{255.0}$

为消除不同量纲的影响，对 $I_{xy}^R$ 进行标准化。标准化公式如下：

$g_{ij}^{R}=\frac{x_{ij}^{R}-\mu^{R}}{\sigma^{R}}$

其中， $x_{ij}^{R}$ 表示原图 $R$ 通道图像的第 $i$ 行、第 $j$ 列的灰度值； $g_{ij}^{R}$ 表示原图 $R$ 通道图像第 $i$ 行、第 $j$ 列标准化后的灰度值； $\mu^R$ 表示 $R$ 通道的算术平均值，由下式表示：
$\mu^R=\frac1{n\times m}\sum_{i=1}^n\sum_{i=1}^mx_{ij}^R$
上式中， $n$ 表示图像的行数， $m$ 表示图像的列数； $\sigma^R$ 表示 $R$ 通道的标准差，公式如下：
$\sigma^R=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_{ij}^R-\mu^R)^2}$

将标准化后的 $g_{ij}^R$ 展开成一列向量 $g^R=\begin{bmatrix}g_1^R&g_2^R&\ldots&g_{m\times n}^R\end{bmatrix}^\mathrm{T}$ 。
$I_{xy}^G$ 、 $I_{xy}^B$ 的处理方法与 $I_xy^R$ 相同，处理完后会得到 $G$ 通道和 $B$ 通道标准化后的向量
$g^G$ 、 $g^B$ 。接着将 $g^R$ 、 $g^G$ 、 $g^B$ 向量组成矩阵 $T$ 。矩阵 $T$ 的公式如下所示：

$T=\begin{bmatrix}g_1^R&g_1^G&g_1^B\\g_2^R&g_2^G&g_2^B\\\vdots&\vdots&\vdots\\g_{m\times n}^R&g_{m\times n}^G&g_{m\times n}^B\end{bmatrix}=\begin{bmatrix}g^R&g^G&g^B\end{bmatrix}$

创建 $T$ 的协方差矩阵：

$S=\begin{bmatrix}co\nu(g^R,g^R)&co\nu(g^R,g^G)&co\nu(g^R,g^B)\\co\nu(g^G,g^R)&co\nu(g^G,g^G)&co\nu(g^G,g^B)\\co\nu(g^B,g^R)&co\nu(g^B,g^G)&co\nu(g^B,g^B)\end{bmatrix}$

其中， $\mathrm{cov}(g^w,g^\nu)=\frac{1}{n-1}\sum_{i=1}^{m\times n}(g_i^w-\overline{g^w})(g_i^\nu-\overline{g^\nu})$ ， $w,\nu\in[R,G,B]$

而 $\overline{g^w}$ 、 $\overline{g^\nu}$ 表示 $w$ 、 $\nu$ 列的平均值。

求解协方差矩阵 $S$ 的特征向量 $p_i$ 和特征值 $\lambda_{i}$ ，其中 $i\in[1,2,3]$ 。
将特征值 $\lambda_i$ 乘以一个以 $0$ 为均值， $0.1$ 为方差的高斯扰动 $a_i$ ，将添加扰动后的特征值与特征向量相乘，并将结果乘以 $255$ 后添加到原有像素值 $I_{xy}=[I_xy^R,I_{xy}^G,I_{xy}^B]$ 中。使用PCA Jittering 图像增强后的图像像素值如下式所示：
$I_{xy}^{\prime}=[I_{xy}^{R}、I_{xy}^{G}、I_{xy}^{B}]+255\times[p_{1},p_{2},p_{3}][\alpha_{1}\lambda_{1},\alpha_{2}\lambda_{2},\alpha_{3}\lambda_{3}]$

参考文献

[1] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems, 2012, 25.

[2] 陈刚.基于卷积神经网络的森林火灾识别系统的研究与设计[D].南京林业大学,2023.DOI:10.27242/d.cnki.gnjlu.2023.000651.