当前位置：首页 > news >正文

机器学习（10）——神经网络

news 来源：原创 2025/4/28 16:23:00

文章目录

1. 神经网络基本原理
- 1.1. 什么是神经网络
- 1.2. 核心思想
2. 基础组件
3. 前向传播（Forward Propagation）
4. 反向传播（Backpropagation）
5. 激活函数对比
6. 网络架构类型
7. 优化策略
8. Python示例（PyTorch）
9. 超参数调优
10. 应用场景
11. 前沿方向
12. 总结

1. 神经网络基本原理

1.1. 什么是神经网络

神经网络（Neural Networks，简称NN）是一类模仿生物神经系统的数学模型，用于处理和解决各种类型的任务，如分类、回归、模式识别等。神经网络属于机器学习领域的一个重要分支，特别是在深度学习（Deep Learning）中起到了核心作用。

1.2. 核心思想

神经网络是一种受生物神经元启发的多层非线性模型，通过堆叠可学习的权重层和激活函数，实现对复杂数据的表示与预测。

其核心能力来自：

层次化特征提取：浅层捕捉局部/低级特征（如边缘），深层组合为高级语义（如物体）。
端到端学习：通过梯度反向传播自动优化所有参数。

2. 基础组件

组件	作用	常见实现
神经元（Neuron）	计算加权输入+偏置，通过激活函数输出。	$w^T x + b, \, a = \sigma(z)$
权重（Weights）	连接神经元，决定特征重要性。	矩阵 $\in \mathbb{R}^{m \times n}$
激活函数	引入非线性，使网络能拟合任意函数。	ReLU, Sigmoid, Tanh, Softmax
损失函数	量化预测与真实值的差距，指导参数更新。	MSE（回归）, Cross-Entropy（分类）
优化器	调整权重更新的方向和步长。	SGD, Adam, RMSprop

3. 前向传播（Forward Propagation）

数据从输入层逐层传递至输出层：
$\text{输入层} \rightarrow \mathbf{h}_1 = \sigma(W_1 \mathbf{x} + \mathbf{b}_1)$

$\text{隐藏层} \rightarrow \mathbf{h}_l = \sigma(W_l \mathbf{h}_{l-1} + \mathbf{b}_l)$

$\text{输出层} \rightarrow \hat{\mathbf{y}} = f(W_L \mathbf{h}_{L-1} + \mathbf{b}_L)$

$\sigma$ ：激活函数（如ReLU）。
$f$ ：输出层激活函数（如Softmax用于多分类）

4. 反向传播（Backpropagation）

通过链式法则计算损失对每层权重的梯度，从输出层回溯至输入层：
$\frac{\partial \mathcal{L}}{\partial W_l} = \frac{\partial \mathcal{L}}{\partial \mathbf{h}_l} \cdot \frac{\partial \mathbf{h}_l}{\partial W_l}$

关键步骤：
- 1. 计算输出层误差 $\delta_L = \nabla_{\hat{y}} \mathcal{L} \odot f'(\mathbf{z}_L)$ 。
- 1. 反向传播误差： $\delta_l = (W_{l+1}^T \delta_{l+1}) \odot \sigma'(\mathbf{z}_l)$ 。
- 1. 计算梯度： $\nabla_{W_l} \mathcal{L} = \delta_l \mathbf{h}_{l-1}^T$ 。

5. 激活函数对比

函数	公式	优点	缺点
Sigmoid	$\frac{1}{1 + e^{-x}}$	输出在(0,1)，适合概率	梯度消失，非零中心化
Tanh	$\frac{e^x - e^{-x}}{e^x + e^{-x}}$	零中心化，梯度更强	仍存在梯度消失
ReLU	$\max(0, x)$	计算快，缓解梯度消失	神经元“死亡”问题
LeakyReLU	$\max(\alpha x,x)$	解决ReLU死亡问题（ $\alpha=0.01$ ）	需调参
Softmax	$\frac{e^{z_i}}{\sum_j e^{z_j}}$	多分类输出概率归一化	仅用于输出层

6. 网络架构类型

类型	结构特点	应用场景
全连接网络（FCN）	每层神经元与下一层全连接	小规模结构化数据（如表格数据）
卷积网络（CNN）	局部连接+权重共享，捕捉空间特征	图像、视频处理
循环网络（RNN）	时序递归结构，处理序列依赖	自然语言、时间序列预测
Transformer	自注意力机制，并行处理长序列	大语言模型（LLM）、多模态任务

7. 优化策略

参数初始化：
- Xavier初始化： $\sim \mathcal{N}$ (0, $\sqrt{\frac{2}{{n_{in}} + n_{out}}})$
- He初始化（ReLU适用）: $\sqrt{\frac{2}{n_{in}}}$
正则化：
- L2正则化：损失函数中加入 $\lambda \|W\|^2$
- Dropout：训练时随机屏蔽神经元（比例通常0.2~0.5）
批归一化（BatchNorm）：
- 对每层输入归一化： $\hat{x} = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}}$ ，加速训练。

8. Python示例（PyTorch）

import torch
import torch.nn as nn
import torch.optim as optim# 定义网络
class MLP(nn.Module):def __init__(self, input_dim, hidden_dim, output_dim):super().__init__()self.layers = nn.Sequential(nn.Linear(input_dim, hidden_dim),nn.ReLU(),nn.Linear(hidden_dim, output_dim),nn.Softmax(dim=1))def forward(self, x):return self.layers(x)# 训练流程
model = MLP(input_dim=784, hidden_dim=128, output_dim=10)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)for epoch in range(10):optimizer.zero_grad()outputs = model(inputs)loss = criterion(outputs, labels)loss.backward()optimizer.step()