当前位置: 首页 > news >正文

机器学习--实现多元线性回归

机器学习—实现多元线性回归

本节顺延机器学习--线性回归中的内容,进一步讨论多元函数的回归问题

y ′ = h ( x ) + w ⊤ ∙ x + b y^{\prime}=h(x)+w^\top\bullet x+b y=h(x)+wx+b
其中, w T ⋅ x 就是 W 1 X 1 + w 2 X 2 + w 3 X 3 + ⋯ + w N X N \text{其中,}w^\mathrm{T}\cdot x\text{就是}_{W_1X_1}+w_2X_2+w_3X_3+\cdots+w_NX_N 其中,wTx就是W1X1+w2X2+w3X3++wNXN

进一步按题目简化:
y ′ = h ( x ) = w 0 x 0 + w 1 x 1 + w 2 x 2 + w 3 x 3 y^{\prime}=h(x)=w_0x_0+w_1x_1+w_2x_2+w_3x_3 y=h(x)=w0x0+w1x1+w2x2+w3x3
其中 w 0 x 0 w_0x_0 w0x0为引入的偏置b

import numpy as np #导入NumPy数学工具箱
import pandas as pd #导入Pandas数据处理工具箱
#读入数据并显示前面几行的内容,确保已经成功的读入数据
#示例代码是在Kaggle中数据集中读入文件,如果在本机中需要指定具体本地路径
# 如,当数据集和代码文件位于相同本地目录,路径
#名应为'./advertising.csv',或直接放'advertising.csv'亦可
df_ads = pd.read_csv('/kaggle/input/online-store-sales-forecast-data/advertising.csv')
df_ads.head()
X = np.array(df_ads) # 构建特征集,含全部特征
X = np.delete(X, [3], axis = 1) # 删除掉标签
y = np.array(df_ads.sales) #构建标签集,销售金额
print ("张量X的阶:",X.ndim)
print ("张量X的形状:", X.shape)
print (X)

需要x和y都为2D向量

y = y.reshape(-1,1) #通过reshape函数把向量转换为矩阵,-1就是len(y),返回样本个数
print ("张量y的形状:", y.shape)

将数据集进行80%(训练集)和20%(验证集)的分割

# 将数据集进行80%(训练集)和20%(验证集)的分割
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                   test_size=0.2, random_state=0)

定义归一化函数 ,进行数据 压缩

def scaler(train, test): # 定义归一化函数 ,进行数据压缩    
    # 数据的压缩
    min = train.min(axis=0) # 训练集最小值
    max = train.max(axis=0) # 训练集最大值
    gap = max - min # 最大值和最小值的差
    train -= min # 所有数据减最小值
    train /= gap # 所有数据除以大小值差
    test -= min #把训练集最小值应用于测试集
    test /= gap #把训练集大小值差应用于测试集
    return train, test # 返回压缩后的数据
def min_max_gap(train): # 计算训练集最大,最小值以及他们的差,用于后面反归一化过程
    min = train.min(axis=0) # 训练集最小值
    max = train.max(axis=0) # 训练集最大值
    gap = max - min # 最大值和最小值的差
    return min, max, gap
    
y_min, y_max, y_gap = min_max_gap(y_train)
X_train_original = X_train.copy() # 保留一份训练集数据副本,用于对要预测数据归一化
X_train,X_test = scaler(X_train,X_test) # 对特征归一化
y_train,y_test = scaler(y_train,y_test) # 对标签也归一化
x0_train = np.ones((len(X_train),1)) # 构造X_train长度的全1数组配合对Bias的点积
X_train = np.append(x0_train, X_train, axis=1) #把X增加一系列的1
x0_test = np.ones((len(X_test),1)) # 构造X_test长度的全1数组配合对Bias的点积
X_test = np.append(x0_test, X_test, axis=1) #把X增加一系列的1
print ("张量X的形状:", X_train.shape)
print (X_train)

通过向量化来实现损失函数

def loss_function(X, y, W): # 手工定义一个MSE均方误差函数,W此时是一个向量
    y_hat = X.dot(W.T) # 点积运算 h(x)=w_0*x_0 + w_1*x_1 + w_2*x_2 + w_3*x_3    
    loss = y_hat.reshape((len(y_hat),1))-y # 中间过程,求出当前W和真值的差异
    cost = np.sum(loss**2)/(2*len(X)) # 这是平方求和过程, 均方误差函数的代码实现
    return cost # 返回当前模型的均方误差值

w = w − α 2 N ∑ i = 1 N ( y ( i ) − ( w ∙ x ( i ) ) ) ∙ x ( i ) w=w-\frac{\alpha}{2N}\sum_{i=1}^N(y^{(i)}-(w\bullet x^{(i)}))\bullet x^{(i)} w=w2Nαi=1N(y(i)(wx(i)))x(i)

封装进一个梯度下降函数:

def gradient_descent(X, y, W, lr, iterations): # 定义梯度下降函数
    l_history = np.zeros(iterations) # 初始化记录梯度下降过程中损失的数组
    W_history = np.zeros((iterations,len(W))) # 初始化权重数组 
    for iter in range(iterations): # 进行梯度下降的迭代,就是下多少级台阶
        y_hat = X.dot(W.T) # 这个是向量化运行实现的假设函数   
        loss = y_hat.reshape((len(y_hat),1))-y # 中间过程, y_hat和y真值的差
        derivative_W = X.T.dot(loss)/len(X) #求出多项式的梯度向量
        derivative_W = derivative_W.reshape(len(W)) 
        W = W - lr*derivative_W # 结合下降速率更新权重
        l_history[iter] = loss_function(X, y, W) # 损失的历史记录 
        W_history[iter] = W # 梯度下降过程中权重的历史记录
    return l_history, W_history # 返回梯度下降过程数据

初始化权重并训练机器

#首先确定参数的初始值
iterations = 300; # 迭代300次
alpha = 0.15; #学习速率设为0.15
weight = np.array([0.5,1,1,1]) # 权重向量,w[0] = bias
#计算一下初始值的损失
print ('当前损失:',loss_function(X_train, y_train, weight))
当前损失: 0.8039183733604858

构建线性回归模型

# 定义线性回归模型
def linear_regression(X, y, weight, alpha, iterations): 
    loss_history, weight_history = gradient_descent(X, y, 
                                                    weight, 
                                                    alpha, iterations)
    print("训练最终损失:", loss_history[-1]) # 打印最终损失
    y_pred = X.dot(weight_history[-1]) # 进行预测
    traning_acc = 100 - np.mean(np.abs(y_pred - y))*100 # 计算准确率
    print("线性回归训练准确率: {:.2f}%".format(traning_acc))  # 打印准确率
    return loss_history, weight_history # 返回训练历史记录
# 调用刚才定义的线性回归模型
loss_history, weight_history = linear_regression(X_train, y_train,
                           weight, alpha, iterations) #训练机器
训练最终损失: 0.002506723466186024
线性回归训练准确率: 75.67%
print("权重历史记录:", weight_history)
print("损失历史记录:", loss_history)

预测的数据

X_plan = [250,50,50] # 要预测的X特征数据
X_train,X_plan = scaler(X_train_original,X_plan) # 对预测数据也要归一化缩放
X_plan = np.append([1], X_plan ) # 加一个哑特征X0 = 1
y_plan = np.dot(weight_history[-1],X_plan) # [-1] 即模型收敛时的权重
# 对预测结果要做反向缩放,才能得到与原始广告费用对应的预测值
y_value = y_plan*y_gap + y_min # y_gap是当前y_train中最大值和最小值的差,y_min是最小值
print ("预计商品销售额: ",y_value, "千元") 
预计商品销售额:  [7.42162744] 千元

相关文章:

  • 【重构谷粒商城】06:Maven快速入门教程
  • 【BUUCTF】[网鼎杯 2018]Comment
  • 通俗诠释 DeepSeek-V3 模型的 “671B” ,“37B”与 “128K”,用生活比喻帮你理解模型的秘密!
  • 【股票数据API接口25】如何获取最近10天历史成交分布数据之Python、Java等多种主流语言实例代码演示通过股票数据接口获取数据
  • 自己部署 DeepSeek 助力 Vue 开发:打造丝滑的折叠面板(Accordion)
  • 智能设备监控:AI 与 Python 助力设备管理的未来
  • 【Linux】Ubuntu Linux 系统——Python集成开发环境
  • 非线性动力学笔C5.2线性系统的分类
  • React使用 useImperativeHandle 自定义暴露给父组件的实例方法(包括依赖)
  • Deepseek实用万能提问模板
  • 【C语言】第一期——数据类型变量常量
  • 绕过information_schema;绕过Order by;seacmsv9实现联合注入数据
  • 安全测试|SSRF请求伪造
  • 剑指 Offer II 019. 最多删除一个字符得到回文
  • Macos机器hosts文件便捷修改工具——SwitchHosts
  • Jmeter断言、关联、录制脚本
  • 【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第十六节】
  • Seaweedfs(master volume filer) docker run参数帮助文档
  • STM32 外部中断和NVIC嵌套中断向量控制器
  • 内容中台重构企业内容管理流程驱动智能协作升级
  • 来伊份一季度净利减少近八成,今年集中精力帮助加盟商成功
  • 葡萄牙、西班牙突发大范围停电,交通和通信服务受到严重影响
  • 观察|英国航母再次部署印太,“高桅行动”也是“高危行动”
  • 新任浙江省委常委、杭州市委书记刘非开展循迹溯源学习调研
  • 王文涛会见德国汽车工业协会主席穆勒
  • 2025厦门体育产业采风活动圆满举行