当前位置：首页 > news >正文

【机器学习-线性回归-1】深入理解线性回归：机器学习中的经典算法

news 来源：原创 2025/4/22 9:56:31

在机器学习的世界里，线性回归就像是一把瑞士军刀——简单、实用且无处不在。作为监督学习中最基础且重要的算法之一，线性回归不仅是数据科学入门的必修课，也是许多复杂模型的基础构建块。本文将带你深入探索线性回归的数学原理、实现方法、评估指标以及实际应用，帮助你全面理解这一经典算法。

1. 什么是线性回归？

线性回归是一种用于建立因变量（目标变量）与一个或多个自变量（特征）之间线性关系的统计方法。它假设因变量和自变量之间存在线性关系，并通过拟合最佳直线（在多元情况下是超平面）来建模这种关系。

简单线性回归：只有一个自变量
y = β₀ + β₁x + ε

多元线性回归：有多个自变量
y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε

其中：

y：因变量（目标）
x/x₁…xₙ：自变量（特征）
β₀：截距
β₁…βₙ：系数（表示每个特征对目标的影响程度）
ε：误差项

2. 线性回归的数学原理

2.1 最小二乘法

线性回归通常使用最小二乘法来估计系数。其目标是找到一组系数，使得预测值与实际值之间的**残差平方和（RSS）**最小：

RSS = Σ(yᵢ - ŷᵢ)² = Σ(yᵢ - (β₀ + β₁xᵢ))²

通过求导并令导数为零，我们可以得到系数的闭式解（解析解）：

β = (XᵀX)⁻¹Xᵀy

其中：

X：特征矩阵（包含一列1以代表截距）
y：目标向量

2.2 梯度下降法

对于大规模数据集，矩阵求逆运算(XᵀX)⁻¹可能计算量很大。此时可以使用梯度下降这种迭代优化方法：

随机初始化系数β
计算损失函数（如MSE）的梯度
沿梯度反方向更新系数：β = β - α·∇J(β)
重复直到收敛

其中α是学习率，控制每次更新的步长。

3. 线性回归的实现

3.1 Python示例（使用scikit-learn）

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np# 生成示例数据
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建并训练模型
lin_reg = LinearRegression()
lin_reg.fit(X_train, y_train)# 预测
y_pred = lin_reg.predict(X_test)# 评估
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"截距: {lin_reg.intercept_}, 系数: {lin_reg.coef_}")
print(f"MSE: {mse}, R²: {r2}")

3.2 从零实现（NumPy）

import numpy as npclass LinearRegression:def __init__(self):self.coef_ = Noneself.intercept_ = Nonedef fit(self, X, y):# 添加截距项X_b = np.c_[np.ones((X.shape[0], 1)), X]# 计算闭式解theta = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)self.intercept_ = theta[0]self.coef_ = theta[1:]def predict(self, X):return np.c_[np.ones((X.shape[0], 1)), X].dot(np.r_[self.intercept_, self.coef_])

4. 模型评估指标

评估线性回归模型的常用指标包括：

均方误差（MSE）：MSE = (1/n)Σ(yᵢ - ŷᵢ)²
- 衡量预测值与实际值之间的平均平方差
- 对异常值敏感，因为误差被平方
均方根误差（RMSE）：RMSE = √MSE
- 与目标变量同单位，更易解释
平均绝对误差（MAE）：MAE = (1/n)Σ|yᵢ - ŷᵢ|
- 对异常值不那么敏感
R²分数（决定系数）：
- 表示模型解释的目标变量方差比例
- 范围[0,1]，1表示完美拟合

5. 线性回归的假设

线性回归模型基于以下关键假设：

线性关系：因变量与自变量之间存在线性关系
独立性：观测值之间相互独立（特别是时间序列数据中需注意）
同方差性：误差项的方差应恒定（不应随预测值变化）
正态性：误差项应近似正态分布（对大样本量不太关键）
多重共线性：自变量之间不应高度相关
无自相关：误差项不应自相关（时间序列中常见问题）

当这些假设被违反时，模型结果可能不可靠。可以通过残差分析来验证这些假设。

6. 正则化：处理过拟合

当特征数量多或存在多重共线性时，可以使用正则化技术：

岭回归（L2正则化）
- 添加系数平方和作为惩罚项：J(β) = MSE + αΣβᵢ²
- 缩小但不消除系数
Lasso回归（L1正则化）
- 添加系数绝对值作为惩罚项：J(β) = MSE + αΣ|βᵢ|
- 可以将某些系数完全压缩为零，实现特征选择
弹性网络
- 结合L1和L2正则化：J(β) = MSE + α(ρΣ|βᵢ| + (1-ρ)Σβᵢ²)

from sklearn.linear_model import Ridge, Lasso, ElasticNetridge = Ridge(alpha=1.0).fit(X_train, y_train)
lasso = Lasso(alpha=0.1).fit(X_train, y_train)
elastic = ElasticNet(alpha=0.1, l1_ratio=0.5).fit(X_train, y_train)

7. 多项式回归：扩展线性模型

当数据关系非线性时，可以通过添加特征的高次项来扩展线性回归：

y = β₀ + β₁x + β₂x² + ... + βₙxⁿ + ε

from sklearn.preprocessing import PolynomialFeaturespoly_features = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly_features.fit_transform(X)lin_reg = LinearRegression()
lin_reg.fit(X_poly, y)