当前位置：首页 > news >正文

线性回归(一）基于Scikit-Learn的简单线性回归

news 来源：原创 2025/4/29 15:40:21

主要参考学习资料：

《机器学习算法的数学解析与Python实现》莫凡著

前置知识：线性代数-Python

问题背景

回归问题是一类预测连续值的问题，满足这样要求的数学模型称作回归模型。

线性方程指未知数都是一次的方程，其图像为一条直线。

线性回归问题的回归模型使用线性方程，适用于数据集点沿线性分布的场景。

数学模型

假设函数

假设函数是一个将输入映射到输出的函数，用于预测输出变量的值。

线性回归模型的假设函数：

$H(x)=\boldsymbol w^Tx_i+b$

其中 $\boldsymbol w$ 为模型参数/权重， $x_i$ 为模型输入，均为 $n$ 维向量。 $b$ 为偏置项。

损失函数

损失函数是一个体现预测值与真实值的偏差的函数。

线性回归模型的损失函数：

$L(x)=\left\|\hat y-y\right\|^2_2$

其中 $\hat y$ 为预测值， $y$ 为真实值。

符号 $\left\|\right\|$ 为范数正则化，简称范数。下标 $n$ 表示 $\mathrm Ln$ 范数，即 $n$ 维欧几里得空间的距离，例如：

$\left\|x\right\|_1=\displaystyle\sum^n_{i=1}|x_i|$

$\left\|x\right\|_2=\displaystyle\sqrt{\sum^n_{i=1}x_i^2}$

优化方法

优化方法是以损失函数为依据将偏差减到最小的方法，通常使用梯度下降等现成算法，此处即通过调节参数 $\boldsymbol w$ 和 $b$ 使损失函数求得最小值：

$\underset{\mathrm w,b}{\min}\left\|\hat y-y\right\|^2_2$

以 $\boldsymbol w$ 为例，其调节方法为：

$\boldsymbol w_新=\boldsymbol w_旧-学习率*损失值$

学习率是一个由外部输入用于控制训练过程的参数，称为超参数，影响每次偏差带来的参数调整幅度。

损失值可通过损失函数对 $\boldsymbol w$ 求偏导得出。

训练步骤

①为假设函数初始化参数 $\boldsymbol w$ 和 $b$ 。

②将每个训练样本 $x_i$ 代入假设函数，最终计算损失值。

③利用优化方法调整假设函数的参数，重复以上步骤使得损失值最小。

代码实现

Scikit-Learn对各类机器学习算法进行了良好封装，可以调用简单的函数来实现模型训练，安装命令为：

pip install -U scikit-learn

基于Scikit-Learn库的线性回归算法：

#从Scikit-Learn库导入线性模型
from sklearn import linear_model 

import matplotlib.pyplot as plt  
import numpy as np  

#生成数据集，样本特征x为间隔均匀的序列，结果y由线性方程给出
x = np.linspace(-3, 3, 30)  
y = 2*x + 1  

#将数据集从一维数组转换为二维数组以符合scikit-learn的输入要求
x1 = [[i] for i in x]  
y1 = [[i] for i in y]  

#创建线性回归模型
model = linear_model.LinearRegression()  
#训练模型
model.fit(x1, y1)  

#绘制拟合线条，predict方法返回模型对输入的预测值
plt.plot(x, model.predict(x1), color='red')  
#绘制原始数据点
plt.scatter(x, y)  
#显示图像
plt.show()

运行结果：

若要添加随机扰动，生成较不规则的数据集，可将代码对应部分替换为：

x = np.linspace(-3, 3, 30)  
y = 2*x + 1  
x = x+np.random.rand(30)

运行结果：

可以通过 $\texttt{model.coef}\_$ 和 $\texttt{model.intercept}\_$ 得到模型当前 $\boldsymbol w$ 和 $b$ 的值。

DeepSeek + Higress AI 网关/Spring AI Alibaba 案例征集

博云先进算力管理平台AIOS已上线全尺寸DeepSeek系列模型

15.代码随想录算法训练营第十五天|（递归）110. 平衡二叉树，257. 二叉树的所有路径*，404. 左叶子之和，222.完全二叉树的节点个数[打卡自用]

JavaWeb-ServletContext应用域接口

Codeforces Round 1006 (Div. 3)(部分题解)

图神经网络：拓扑数据分析的新时代

单点登录原理和JWT实现

算法-图-查找路径

mybatisPlus打印sql配置

在nodejs中使用ElasticSearch（三）通过ES语义检索,实现RAG

springboot集成deepseek4j

「Selenium+Python自动化从0到1①｜2025最新环境搭建+浏览器驱动避坑指南（附验证代码）」

k8s中pod的调度策略之pod的亲和性调度与反亲和性调度一文搞懂 k8s中创建的pod如何调度？

Spring Cloud Alibaba学习 3- Sentinel入门使用

java后端开发day20--面向对象进阶（一）--static继承

C# Unity 唐老狮 No.1 模拟面试题

在Linux环境下利用MTCNN进行人脸检测（基于ncnn架构）

ARM Coretex-M核心单片机（STM32）分析hardfault的原因

Spring如何解决循环依赖？

CCF-CSP历年真题大全附题解python

日本希望再次租借大熊猫，外交部：双方就相关合作保持密切沟通

马上评丨又见酒店坐地起价，“老毛病”不能惯着

从咖啡节到话剧、演唱会，上海虹口“文旅商体展”联动促消费

上海灵活就业人员公积金新政有哪些“创新点”？

国家能源局：支持民营企业参股投资核电项目

扎克伯格怕“错过风口”？Meta AI数字伴侣被允许与未成年人讨论不当话题